Sunteți pe pagina 1din 33

1re partie : STATISTIQUE DESCRIPTIVE

CHAPITRE 1 : COLLECTE DE LINFORMATION, TABLEAUX ET


GRAPHIQUES.
I.

Dfinition et vocabulaire

Dfinition : la statistique est une mthode scientifique qui consiste runir des donnes
chiffres sur des ensembles nombreux, puis analyser, commenter et critiquer ces
donnes.
Cette science na pas pour objet la connaissance des lments des ensembles dans ce
qui fait leur individualit, mais au contraire dans ce quils ont en commun : il sagit dobtenir
des rsultats globaux. Ainsi, une enqute statistique portant sur des personnes na pas besoin
de faire intervenir leurs noms, mais seulement les renseignements que lon dsire tudier : elle
permet de connatre la rpartition de ces personnes par ge, par sexe, groupe sanguin
Comme toute science, la statistique fait appel un vocabulaire spcialis :
-

Les ensembles sont appels populations. Comme un ensemble, une population statistique
doit tre clairement dfinie.
Les lments de la population sont appels individus ou units statistiques, (que ce soient
des hommes ou des automobiles).
La population est tudie selon un ou plusieurs caractres.
Un caractre permet de dterminer une partition de la population selon diverses modalits.
Ainsi le sexe est un caractre deux modalits : masculin et fminin.
Lorsque les modalits du caractre sont des nombres, le caractre est dit quantitatif ; on
lui donne souvent le nom de variable statistique. Une variable statistique peut tre discrte
si elle ne prend que des valeurs isoles ou continue si elle peut prendre nimporte quelle
valeur intermdiaire entre deux valeurs donnes.
Lorsque les modalits du caractre ne sont pas mesurables, le caractre est dit qualitatif.
Les modalits dun caractre qualitatif peuvent faire lobjet dune nomenclature ou
numration ; la nomenclature doit en principe tre courte (une dizaine pour une tude
statistique simple). Mais les exigences de ltude sont parfois telles que la nomenclature
occupe des volumes entiers : cest le cas de nomenclatures codes des catgories
socioprofessionnelles et des professions faites par lI.N.S.E.E.

Exemples : Pour des chmeurs, lge est un caractre quantitatif continu ; le nombre
denfants est un caractre quantitatif discret. Pour des automobiles, la couleur est un caractre
qualitatif.

II.

La collecte des informations

Le premier objet de la mthode statistique est de runir les informations avant de les traiter.

Voici quelques gnralits :


- Objectif de linformation. Enqute : Il importe, ds le dpart, de bien dfinir le ou les
objectif(s) avant de raliser lenqute. Si un lment est oubli dans les premires recherches,
il risque dtre long et coteux de le rechercher ensuite.
Exemple : Si lon ralise une enqute sur lemploi dans un secteur dtermin, il ne faut oublier
aucune variable. On peut demander aux personnes interroges leur qualification
professionnelle, leur ge, etc Mais si ensuite on saperoit que le salaire est un caractre
important, il est trop tard et il faut refaire lenqute.
- Quantit dinformation : Cependant il ne faut pas tre trop ambitieux. Il ne doit pas y avoir
de lacunes dans linformation mais il ne doit pas y avoir trop dinformations, car il devient
alors impossible den tirer une synthse.
- Collecte de donnes : Les donnes sont recueillies soit par observation directe, soit
indirectement.
- observation directe : enqute mene par les statisticiens laide de questionnaires qui sont
ensuite dpouills.
- Observation indirecte statistiques dune entreprise tires de sa comptabilit, statistiques de
naissances et des dcs tires de ltat civil .
- Diffrents modes de collecte de linformation :
- Les rsultats statistiques peuvent tre obtenus partir dune enqute exhaustive
instantane (dnombrement instantan ou recensement) ou dun relev continu (tat
civil).
- De mme, lenqute peut tre exhaustive ou partielle. Lenqute exhaustive porte sur
toutes les units de la population ; elle est utile mais souvent coteuse. Cest pourquoi
on a recours des enqutes partielles faites sur un chantillon de la population : il
sagit alors de sondage, et il faut dterminer un chantillon reprsentatif, de manire
que les rsultats statistiques trouvs sur cet chantillon soient voisins de ceux que lon
aurait obtenus si on avait tudi la population entire.

III.

Dpouillement des observations

Lorsque les observations sont obtenues, elles doivent tre classes et exploites. Auparavant
une critique des rponses doit tre faite afin dliminer les contradictions et les
invraisemblances. Pour chaque caractre tudier, on dfinit un certain nombre de classes
selon les modalits, puis on fait le tri des observations, cest dire une rpartition par classes.
Ces oprations peuvent tre faites la main ou laide dun ordinateur. Le document
denqute doit tre au moins partiellement cod pour viter la surcharge des mmoires.

IV Tableaux statistiques
On peut reprsenter les donnes brutes dune tude dans un tableau. Mais il est possible den
dduire un tableau plus clair, en faisant un regroupement par classes. On choisit les classes
pas trop nombreuses, mais suffisamment pour quil ny ait pas de perte dinformation. Il

importe que les classes recouvrent tous les rsultats et aient une intersection vide, do les
formulations du type de moins de ; la diffrence entre les deux extrmits est
appel amplitude de la classe.
On peut fixer le nombre de classes selon lun des deux formules suivantes :
i)

Rgle de Sturge : nb. de classes = 1+ (3.3 log n)

ii)

Rgle de Yule :
nb. de classes = 2.54 n

Avec n = effectif de lchantillon.


Lamplitude de classe est alors donne par :
valeur max. - valeur min.
nb. de classes

Leffectif dune classe est le nombre dlments de la population observs dans cette classe.
La frquence est le rapport de cet effectif leffectif total de la population. La frquence est
exprime en pourcentage.
Exemple 1: On sintresse la charge de rupture dun fil en grammes.
711
915
853
789
941
890
763
892
914
889

862
873
700
790
909
925
805
893
794
791

851
926
885
753
784
895
796
915
931
782

912
864
857
910
882
768
759
890
701
713

922
800
844
847
859
869
916
888
772
724

791
931
907
784
903
892
853
865
935
868

825
722
917
936
925
895
789
909
887
842

935
774
786
706
704
912
942
931
880
892

895
903
820
758
792
850
712
710
933
905

758
925
930
887
888
920
764
798
905
792

8462
8633
8499
8160
8587
8816
8099
8691
8652
8198
84797

On va regrouper ces donnes en classes. Nous avons un effectif de 100 ce qui nous donne en
nombre de classes daprs les rgles de Sturge et de Yule : 7 classes. En fait dans lexemple
ils en prennent 6.

Charge en grammes Effectifs

IV.

Frquences

700 moins de 750

10

0,1

750 moins de 800

23

0,23

800 moins de 840

0,04

840 moins de 880

15

0,15

880 moins de 920

32

0,32

920 et plus

16

0,16

TOTAL

100

Graphiques

4.1. Cas de distributions quantitatives


Les graphiques sont normalement raliss en portant en abscisse la variable observe et en
ordonne leffectif ou la frquence.
-

dans le cas dune variable discrte, le graphique est un diagramme btons, ainsi
apparat la discontinuit entre deux valeurs.
dans le cas dune variable continue, le graphique est un histogramme. La surface
limite par lhistogramme doit tre proportionnelle leffectif ou la frquence. Il
convient de prendre garde lamplitude des classes (on se ramne la plus petite
amplitude, amplitude lmentaire, et on divise la hauteur du rectangle par la mesure de
lamplitude de la classe par rapport cette amplitude lmentaire).

hauteur du rectangle =

effectif ou frquence amplitude lmentair e


amplitude de la classe

Exemple : On a rcolt les donnes suivantes :

charges en g. (classes)
700 moins de 750
750 moins de 800
800-840
840-880
880-920

effectifs

amplitude
hauteur du rectangle
50 (10*40)/50=8
50 (23*40)/50=18,4
40
4
40
15
40
32

10
23
4
15
32

effectifs par classes


35
30
25
20

sans tenircompte de l'amplitude

15

en tenant compte de l'amplitude

10
5
0
1

4.2. Cas de distributions qualitatives


Diverses mthodes sont possibles, par exemple :
-

on peut raliser des diagrammes bandes


ou des diagrammes secteurs

CHAPITRE 2 : ETUDE DES SERIES STATISTIQUES SIMPLES.


I.

Introduction

Un tableau statistique ou un graphique sont parfois long consulter, sans permettre davoir
une ide suffisamment concise de la distribution statistique observe. On cherche alors
rsumer celle-ci par une caractristique de tendance centrale, cest dire par un seul nombre
destin caractriser lensemble dune faon objective et impersonnelle, comme par exemple
la moyenne arithmtique, la mdiane ou le mode.

II.

La moyenne arithmtique

La moyenne arithmtique dune srie de valeurs dune variable statistique est gale la
somme de ces valeurs divise par leur nombre.

2.1. Cas de donnes numres


La formule gnrale est, pour n observations x1, x2, x3, xn :

x=

x1 + x2 + ...+ xn
n

2.2. Cas dune variable discrte


Si la variable est discrte on emploie la formule de la moyenne pondre. Pour t classes
deffectifs ni ou de frquences fi la moyenne x scrit pour les valeurs x1, x2, x3, xt de la
variable :

x=

n1 x1 + n2 x2 + ...+ nt xt f1 x1 + f2 x2 + ...+ ft xt
=
n1 + n2 + ...+ nt
f1 + f2 + ...+ ft

On a lhabitude de rsumer cette criture en employant le signe :


t

x =

n ix

i =1

i =1

fix

i =1
t

fi

i =1

2.3. Variable continue et donnes groupes.


Si la variable est continue et si les donnes sont groupes on ne peut que rechercher
arbitrairement une moyenne lintrieur de chaque classe ; dfaut on choisit le centre de

classe . Le calcul est effectu comme si tous les individus dune classe avaient pour caractre
le centre de classe, avec toute la part dapproximation que cela comporte.

Exemple : Lors dune tude sur la rsistance dun mtal, on a ralis 100 expriences de
rupture en charge dun fil de mme paisseur et lon a not les poids limites dans chaque cas.
Le tableau ci-dessous reprsente la rpartition par classes des rsultats.
On calcule la moyenne de la charge de rupture dun fil, partir des effectifs.
Tableau 1
charge en grammes
700
750

effectifs centre de classe


ni
xi
10

725

7250

23

775

17825

820

3280

15

860

12900

32

900

28800

16

940

15040

800
840
880
920

nixi

960
TOTAL

x =

nx
n
i

85095
100

100

85095

= 850 , 95 851 g.

Remarque : si on avait fait le calcul sur les donnes brutes on aurait trouv : 848g. Cette perte
de prcision est due au regroupement des donnes en classes, et au choix des centres de
classes comme moyenne de la classe, do perte dinformation.

III.

Le mode ou la classe modale

Le mode ou valeur modale est la valeur que la variable statistique prend le plus frquemment.
-

Dans le cas dune variable discrte, le mode peut tre trouv immdiatement, au vu du
tableau des frquences ou des effectifs.

Si la variable est continue, et si les donnes sont groupes en classes, on parle plutt de
classe modale : la classe ayant leffectif le plus lev (effectif ramen lunit
damplitude). Attention il peut arriver que la classe modale ne soit pas celle o leffectif
apparat, sur le tableau, le plus lev. En effet, cette dernire classe peut avoir une
amplitude plus grande quune autre dont leffectif par unit damplitude, est plus lev.
Sur lexemple prcdent, si la classe 700 moins de 800 figurait, son effectif serait 33,
suprieur celui retenu pour la classe modale. Mais ramen lunit damplitude 40,
leffectif ne serait plus que : 33*40/100=13.2. La rpartition des charges de rupture dun
fil a pour classe modale la classe 880 moins de 920 , deffectif 32.

IV.

La mdiane

La mdiane dune srie statistique est une valeur de la variable telle quil y ait autant
dobservations ayant une valeur suprieure la mdiane que dobservations ayant une valeur
infrieure la mdiane.

Exemple : si nous considrons les cinq valeurs suivantes : 711 862 851 912 922.
Ces valeurs peuvent tre ranges selon les grandeurs croissantes : 711 851 862 912 922.
La valeur 862 est telle que deux observations ont une valeur infrieure et deux autres une
valeur suprieure : cest la mdiane.
Lorsque les observations sont toutes donnes, il suffit donc de les classer par ordre de
grandeurs croissantes (ou dcroissantes), et de prendre celle qui se trouve au milieu. Si le
nombre des observations est pair, la mdiane peut tre thoriquement lune quelconque des
valeurs comprises entre les deux valeurs centrales observes ; le plus souvent on choisit leur
demi-somme.
Si par contre les observations sont regroupes en classes , il est ncessaire de recourir aux
effectifs ou aux frquences- cumuls.

V.

Effectifs ou frquences cumuls.

Il est souvent intressant, devant une srie statistique, de pouvoir dire il y a tant
dobservations ou il y a tel pourcentage dobservations infrieures telle valeur (ou
suprieures). Cest ce genre de proccupation que rpond le calcul des frquences ou des
effectifs cumuls.

5.1. Variable continue


On ajoute leffectif dune classe leffectif cumul prcdent, en commenant par le haut du
tableau pour leffectif cumul moins de et le bas pour leffectif plus de , voir tableau 2.
La seule difficult est de bien commencer ; pour cela, il suffit de se rfrer la signification
des rsultats ; si lon cherche combien de fil nont pu rsister un poids de moins de 700g, le
tableau 2 permet de rpondre quil ny en a aucun, on crit leffectif cumul 0 en face du
poids 700g.
On lit par exemple que 67 fils ont support une charge de plus de 800g. Il est possible
deffectuer une reprsentation graphique des effectifs cumuls.

Tableau 2
charge en grammes

effectifs centre de classe


xi
ni

700
750
800
840
880
920

nixi

10

725

7250

23

775

17825

820

3280

15

860

12900

32

900

28800

16

940

15040

effectifs cumuls
"- de"
0

"+ de"
100

10

90

33

67

37

63

52

48

84

16

100

960
100

TOTAL

85095

Effectifs cumules
100
80
60

"+ de"

40

"- de"

20
0
600

700

800

900

1000

charge en g.

5.2. Variable discrte


Si la variable est discrte, une petite difficult supplmentaire apparat, au niveau de la
signification. Plusieurs dfinitions des effectifs ou frquences cumuls sont possibles
Il faut faire attention si on parle au sens stricte ou au sens large.

VI.

Calcul de la mdiane

La mdiane est la valeur de la variable qui correspond la frquence cumule 50% ou


leffectif cumul n /2.
On calcule la valeur de la variable correspondant la frquence cumule 50%.
Considrons les donnes du tableau 2 : la mdiane M correspond leffectif 100/2=50. On
procde linterpolation linaire sur les effectifs cumuls moins de (ou ventuellement
plus de ) :

effectifs cumuls "moins de"

840
880

37
52

55
50
45
40
35
30
25
20
830

840

850

860

870

880

890

Le point de coordonnes (M,50) est sur la droite passant par les points A et B.
Trouvons lquation de cette droite : y=ax+b.

A(840,37)

x=

et B(880,52)

37 = 840 a + b
15 = 40 a a = 3 8

b = 278
52 = 880 a + b

yb
50 + 278
M=
874,67 875 g.
3
a
8

Remarque : Cette valeur peut tre lue sur le graphique des effectifs cumuls ; cest la valeur
de la variable correspondant leffectif 50 ; on lit environ 875g.

VII.

Etendue.

Ltendue est la diffrence entre la valeur maximale et la valeur minimale dune srie.

VIII. Caractristiques de dispersion


On considre les deux sries de donnes suivantes : 95 97 100 103 105
50 75 100 125 150
Elles ont mme moyenne arithmtique et mme mdiane (100). Cependant elles diffrent
profondment. Ce qui fait leur diffrence, cest ce quen statistique on nomme la dispersion ;
la deuxime srie est beaucoup plus disperse que la premire.
Il est donc important de rsumer une srie statistique non seulement par des caractristiques
de tendance centrale, mais aussi par des caractristiques de dispersion. Nous en dfinirons de
deux sortes : celle lies la moyenne : cart absolu moyen et cart-type ; celles lies la
mdiane : cart interquartile, cart interdcile, etc

10

IX.

Ecart absolu moyen

On calcule dabord lcart la moyenne. Pour chaque valeur de la variable x, on calcule


lcart de cette valeur la moyenne x ; on cherche ensuite rsumer ces carts en calculant
une moyenne.
Pour les deux sries du VII, les carts sont : -5 -3 0 3 5
-50 -25 0 25 50
Il est impossible de rsumer ces carts par leur moyenne arithmtique, puisque par dfinition
mme de x :
n

(x x) = nx + x
i

i =1

= nx + nx = 0

i =1

Cependant, la simple vue des deux lignes dcart calcules ci-dessus montre que ceux-ci
caractrisent convenablement la dispersion. On a alors recours la moyenne des valeurs
absolues des carts, cest lcart absolu moyen :

e =

xi x
n

Ou, si les observations sont rparties par classes :


e=

xi x
n

Pour la premire srie observe on a :

e1 =

16
= 3, 2
5

Et pour la deuxime :

e2 =

150
= 30
5

Cette caractristique rend convenablement compte de la diffrence de dispersion entre les


deux sries. Elle est cependant peu utilise. En outre, la formulation des lois statistiques fait
appel une autre caractristique : l'cart type.

X.

Ecart-type

10.1. Dfinition
La caractristique de dispersion la plus usuelle est en effet lcart-type. Puisque la moyenne
arithmtique des carts la moyenne est nulle, on a recours la moyenne quadratique de ces
carts. On dfinit :

11

la variance dune srie : cest une moyenne arithmtique des carrs des carts la
moyenne :
V =

n (x x)
n
i

Lcart type dune srie : cest la moyenne quadratique des carts la moyenne, autrement
dit, cest la racine carre de la variance.

V =

(x i x)2

En reprenant les sries du 7, on a pour la premire :

v1 =

25 + 9 + 25 + 9
= 13,6 et 1 = 3,69
5

Et pour la deuxime :

v2 =

2500 + 625 + 625 + 2500 6250


=
= 1250 et 2 = 35,36
5
5

10.2. Mthode de calcul


Les calculs risquent de devenir laborieux si la moyenne nest pas entire : on a traiter des
carts la moyenne non entiers avec dinvitables arrondis, do des calculs lourds et
forcment peu prcis. Pour allger les calculs, on se sert du thorme de Koenig.
Dveloppons :

S = ni (xi x)2

= n i x i 2ni xi x + ni x 2
2

n i x i + nx 2
n i x i 2x
123
2

nx

car

nixi
x=

= ni xi nx2
2

On exprime souvent ce thorme partir de la formule de la variance qui sen dduit :

n x
V(X) =
i

2
i

(x) 2

12

La variance est gale la moyenne des carrs moins le carr de la moyenne. Ce rsultat
simplifie considrablement les calculs ncessaires pour obtenir la variance et lcart-type ;
cest sous cette forme que le thorme de Koenig est utilis ds quon dispose dune machine
calculer.

Remarque : cette dernire formulation de la variance limite les erreurs darrondis car la
moyenne nintervient quune seule fois alors que dans la formulation prcdente elle
intervient i fois.
10.3. Exemples
Il est possible de calculer la variance et lcart type sur lexemple du 2.
Pour la rupture en charge des fils, sur les donnes groupes du tableau 1. On utilise la
formule :

n x
V(X) =
i

2
i

(x) 2

Tableau 3
charge en grammes

effectifs centre de classe


ni
xi

700
750
800
840
880
920

nixi

nixi2

10

725

7250

5256250

23

775

17825

13814375

820

3280

2689600

15

860

12900

11094000

32

900

28800

25920000

16

940

15040

14137600

85095

72911825

960
100

TOTAL

n x
V(X) =
n
i

2
i

(x)2 =

72911825
(850,95) 2 = 5002,35
100

= 5002,35 = 70,73 g.
10.4. Signification de lcart type
Remarque : Il existe une autre quantit reprsentante de la dispersion dune srie, cest
ltendue :
tendue = valeur maximale valeur minimale.

13

Lorsque lon compare deux sries de mme nature, celle qui a lcart type le plus lev est la
plus disperse.
Cependant, par rfrence une loi statistique usuelle, la loi normale, il est possible de
prciser un peu la signification de lcart type. Lorsquune srie statistique satisfait la loi
normale, 95% des observations sont comprises entre x 2 et x + 2 : plus lcart type est
lev, plus les observations sont disperses. Si la srie statistique tudie, sans suivre une loi
normale, nest pas trop dissymtrique, la mme proprit est approximativement vraie.
On dduit de la proprit nonce ci-dessus dans le cas de la loi normale, la rgle de
vrification suivante : ltendue dune srie statistique (diffrence entre observation la plus
leve et la plus basse) est du mme ordre de grandeur que quatre cart-types.

Par exemple : pour la rupture en charge de fils, ltendue est certainement infrieure
960-700=260g (en effet 960 et 700 sont des extrmits de classes dont on sait par les donnes
brutes quelles ne sont pas toutes deux atteintes) et 4=283g : les deux nombres ne sont pas
gaux mais ils sont du mme ordre de grandeur.

10.5. Coefficient de variation


Ltendue, la variance et lcart type sont des paramtres de dispersion absolue qui mesurent
la variation absolue des donnes. Cependant, un cart type de 6 mm na pas la mme
signification sil se rapporte des mesures de lordre de 160 mm ou des mesures de lordre
de 80 mm. Aussi dispose-t-on dun indice de dispersion relative appel coefficient de
variation, not CV. Par dfinition, le coefficient de variation est gal
CV =

100
x

Remarque : ce coefficient cesse dtre efficace pour x petit.


Ce coefficient de variation a lavantage dtre comparable pour toutes les sries statistiques.

Exemple : (rupture en charges ) le coefficient de variation de la srie tudie ci-dessus est :


70,73
= 0.08
850,95

La srie de poids apparat peu disperse, parce que toutes les observations sont
relativement voisines de la moyenne.

XI.

Caractristiques de position : quartiles, dciles, centiles

14

Les quartiles, dciles et centiles sont des caractristiques qui correspondent au mme genre de
proccupation que la mdiane.
Il sagit des valeurs de la variable qui correspondent aux effectifs cumuls :
n/4, 2n/4, 3n/4
n/10, 2n/10,9n/10
n/100, 2n/100,99n/100

pour des quartiles, le 2me quartile est la mdiane,


pour les dciles ; le 5me dcile est la mdiane,
pour les centiles ; le 50me centile est la mdiane.

On les appelle caractristiques de position, puisquelle permettent de placer les valeurs de la


variable.
- Cas dune variable continue
Les calculs seffectuent comme ceux concernant la mdiane.
Reprenons lexemple de rupture des fils. Les quartiles peuvent tre dtermins soit
graphiquement, soit par un calcul dinterpolation linaire. La premier quartile Q1 correspond
leffectif cumul 25% soit :
A
?
B

750
Q1
800

10
25
33

10 = 750a + b
23
23
23 = 50a a =
et b = 10 750 = 335

50
50
33 = 800a + b

Ce qui donne :

25 = Q1

23
50
335 Q1 = (25 + 335)
= 782,61 783 g.
50
23

De mme on peut trouver pour le 3me quartile : (Q3,75)

Q 3 = 908,75g 909 g.
On calculerait de la mme manire les dciles. Pour le 1er et le 9me dcile, on obtient :
D1=750 g et D9=935 g.

- Cas dune variable discrte


Le principe est le mme.
Pour des populations nombreuses, on calculerait de mme certains centiles, particulirement
les centiles extrmes, C1 et C99.

XII.

Caractristiques de dispersion : tendue, carts interdciles, carts interquartiles

15

Les caractristiques de position dfinies au X suggrent une manire de caractriser la


dispersion sensiblement diffrente de celle qui aboutit lusage de lcart-type. En effet, un
intervalle dans lequel on trouve toute la population tudie, ou un intervalle lintrieur
duquel se situe 80% de cette population, les 10% extrmes (les plus aberrants) tant limins
des deux cts, peut donner une ide de la faon dont se rparti une srie.
Le premier intervalle ainsi dfini est ltendue, diffrence entre lobservation la plus
leve et lobservation la plus faible. Le second est lcart interdcile : D9 D1. On dfinit de
la mme manire lcart interquartile : Q3 Q1.
Ainsi pour la srie des charges de rupture du fil, ltendue est : e= 960-700 =260 g.
Lcart interdcile est : D9-D1 = 935-750=185 g
Interprtation de ce rsultat : En liminant les 10% les plus rsistants et les 10% les moins
rsistants, les charges de rupture des fils sont rparties lintrieur dune plage de 185 g.
Lcart interquartile est : Q3-Q1 = 909-783=126 g.
Interprtation : 50% de la population des fils a une charge de rupture rpartie sur 126g. Cet
cart est lev par rapport au prcdent : mais la rpartition des charges de rupture fait
apparatre en quelque sorte deux populations distinctes ; llimination des 20% ou des 50% de
lensemble qui se trouvent aux extrmits ne fait pas disparatre la classe centrale 800
moins de 840 dont leffectif est trs faible.

On peut faire les mmes calculs pour une variable discrte. Les rsultats sont sensiblement
moins intressants. En effet, il est frquent que des quartiles ou des dciles soient gaux la
mdiane.

XIII. Quelques conseils pour ltude de sries statistiques simples


Il est ncessaire de sparer clairement deux types de calculs :
-

moyenne, cart-type .. raliser partir des centres de classes et des effectifs de classes.
mdiane, quartiles, intervalles interquartiles .. raliser partir des extrmits de classes
et des effectifs cumuls.

16

CHAPITRE 3 : ETUDE DES SERIES STATISTIQUES DOUBLES


I.

Position du problme

Dans les chapitres prcdents on tudiait une population selon un seul caractre. Cependant il
est souvent utile de considrer la fois plusieurs caractres de la mme population : taille,
ge, poids dun groupe denfants ; qualification et salaire de salaris ; temprature et pression
dun milieu diffrentes heures
Nous nous limiterons ici ltude simultane de deux caractres ; lanalyse des donnes
permet den tudier un grand nombre.

II.

Notations et reprsentation des sries statistiques doubles

Une srie statistique double peut tre donne comme lnumration dun certain nombre de
rsultats. La tableau ci-dessous donne la consommation en milliers de calories de douze
familles en moyenne par jour. Chaque homme adulte est compt pour une unit de
consommation ; un enfant est compt pour une part dunit, dpendant de son ge et de son
sexe.
Tableau 1
n de

unit de

consommation
xi
1
5,3
2
7,2
3
5,6
4
7,1
5
5
6
3,3
7
5,2
8
4,5
9
4
10
2
11
5,7
12
4,7
TOTAL
59,6
famille

calories
par jour
yi
13
18
9,4
15,4
7,8
9,3
10,1
7,1
8,9
4,4
12,1
11,5
127

On peut avoir des donnes groupes : on parle alors de tableaux carrs ou de tableaux
double entre. Il est alors ncessaire demployer des notations prcises.
Soient x et y deux caractres (quantitatifs ou non). Les classes du caractre x sont dsignes
par les indices 1,,j,.,p, celles du caractre y par 1,,i,,q.
nij est le nombre dunits reprsentant la modalit yi de y et la modalit xj de x.
Les sommes des effectifs de la ligne i, de la colonne j et de lensemble sont nots
respectivement :

17

n
j=1

ij

= n i. , n . j = n .j , n ij = n ..
i =1

j=1 i =1

Tableau 2 : Notation des tableaux carrs

caractre y

caractre x
xj

x1

x2

y1

n11

n12

n1j

y2
:
:
yi
:
:
yq

n21

n22

:
:
:
:
nq1

:
:
:

n2j
:
:
nij

total

n.1

n.2

n.j

xp

..

n1p

total
n1.

nqp

n2.
:
:
ni.
:
:
nq.

n.p

n..

La dernire ligne et la dernire colonne du tableau reprsentent les distributions marginales,


cest dire la distribution de x sans tenir compte du caractre y ou celle de y sans tenir
compte de x.
La distribution marginale des yi , comme celle des xj, peut tre traite comme une srie
simple. On dfinit en particulier la moyenne y, la variance V(y) et lcart type (y).
De mme, lune quelconque des lignes ou des colonnes du tableau peut tre interprte
comme une distribution conditionnelle.
Il est possible dtudier les distributions conditionnelles comme des sries statistiques
simples.

III.

Ajustement linaire. Principe de la mthode des moindres carrs

Les donnes du tableau 1 peuvent tre reprsentes graphiquement :

18

20
nb. de calories par jour

18
16
14
12
10
8
6
4
2
0
0

nb. d'units de consommation

On constate sur la figure ci-dessus que les points reprsentatifs de la srie des consommations
ne sont pas rigoureusement aligns, mais quils forment un nuage de points allong.
Il nest pas alors dpourvu de sens de chercher si lon peut trouver une droite qui rsume
approximativement lensemble des points. La recherche dune telle droite est un ajustement
linaire.
3.1. Ajustement graphique

Thoriquement, diverses sortes dajustement linaires sont possibles. La plus simple est
lajustement graphique, ralis par le dessinateur. Linconvnient majeur de lajustement
graphique est quil est subjectif.
3.2. Autres ajustements

Dautres ajustements peuvent tre raliss de faon plus objective, par exemple en utilisant les
points extrmes ou les moyennes de certains groupes de rsultats. Lorsquil sagit de sries
chronologiques, il est usuel de raliser un ajustement linaire par de telles mthodes.
3.3. Mthode des moindres carrs

La mthode des moindres carrs prsente un caractre plus rigoureux que les prcdentes.
Elle consiste rechercher une droite telle que la somme de ses distances aux diffrents points
reprsentant les donnes soit minimale. Le mot distance est pris au sens large. La distance
choisie est le carr de la diffrence des ordonnes entre chaque point et le point de la droite
ayant mme abscisse.
3.4. Notion de corrlation linaire

La mthode des moindres carrs peut tre utilise pour nimporte quelle srie double. Quelle
que soit cette srie, il existe une droite destimation par la mthode des moindres carrs. Pour
sassurer de faon objective que lajustement est valable, on calcule le coefficient de
corrlation linaire :

r =

cov( x , y )
x y
19

Ce coefficient est compris entre 1 et +1. Sil est voisin en valeur absolu de 1, lajustement
est valide (0.70 < | r | < 1). La covariance joue un rle analogue la variance dans les sries
statistiques simples, elle est dfinie par :

1
1
cov(x, y) = ( xi x)( yi y) = xi yi x y
n
n
Remarque : si on fait x=y, on retrouve la formule de la variance.

Sur lexemple du tableau 1, calculons le coefficient de corrlation linaire.


A laide de ce tableau, on peut effectuer les calculs suivants :
Tableau 3

n de
famille

unit de

calories

consommation

par jour

xi
5,3
7,2
5,6
7,1
5
3,3
5,2
4,5
4
2
5,7
4,7
59,6

yi
13
18
9,4
15,4
7,8
9,3
10,1
7,1
8,9
4,4
12,1
11,5
127

1
2
3
4
5
6
7
8
9
10
11
12
TOTAL

xi2
28,09
51,84
31,36
50,41
25
10,89
27,04
20,25
16
4
32,49
22,09
319,46

yi2
169
324
88,36
237,16
60,84
86,49
102,01
50,41
79,21
19,36
146,41
132,25
1495,5

xiyi
68,9
129,6
52,64
109,34
39
30,69
52,52
31,95
35,6
8,8
68,97
54,05
682,06

59,6
= 4,97 5 units de consommation
12
127
y=
= 10.58 10,6.10 3 calories.
12
1
319 , 46
2
V (x ) = x i x 2 =
( 4,97 ) 2 = 1,95
n
12
x = 1.4 units de consommati on
x=

V (y) =

1
n

1495 . 5
(10 . 58 ) 2 = 12 . 62
12
y = 3 , 55 . 10 3 calories

yi y2 =

20

1
682 .06
4 .97 10 .58 = 4 .26
xi yi x y =
n
12

cov( x , y ) =

Le coefficient de corrlation est alors :

r =

cov( x , y )
4 . 26
=
= 0 . 86
x y
1 . 4 355

Sans indiquer une bonne corrlation (il faudrait quil soit suprieur 0.95), ce coefficient
autorise lajustement linaire.

IV.

Application de la mthode des moindres carrs des donnes individuelles

4.1. Principe de la mthode

La droite dfinie au paragraphe (3.3) a pour quation :

y = ax + b
On recherche les paramtres a et b. La diffrence des ordonnes entre un point(xi,yi) et le
point de la droite ayant mme abscisse est :

yi yi = yi axi b
La somme des carrs de ces diffrences doit tre minimum :

S=

(y

ax i b) 2 minimum

i =1

Pour dfinir les coefficients a et b, on dveloppe S et on le considre successivement comme


un trinme en b, puis b tant dtermin, comme un trinme en a. On trouve :

b = y ax
a =

( x i x )( y i y )

(x i x )2

xy
x
i

nxy
nx 2

On reconnat au numrateur la covariance de x et de y et au dnominateur la variance de x, au


coefficient n prs.

21

cov( x , y )
V (x )

a =

La forme du coefficient b permet de constater que la droite dajustement passe par le point
moyen (x,y). Son quation est :

y = y + a ( x x )
4.2. Application lexemple du tableau 3 :

En utilisant les formules ci-dessus, on trouve :

a=

4 .26
= 2 .18
1 .95

y = ax + b = ax + y ax = y + a ( x x )
y1 = 10.6 + 2.2( x 5) droite d' estimation de y en x.
4.3. Droite destimation de x en y

Le calcul prcdent fait jouer un rle dissymtrique x et y. Or rien au plan statistique ne


permet de dire si une variable dpend de lautre. Il est alors aussi logique de recommencer les
calculs prcdents, mais en inversant les rles des deux variables.
On dfinit une droite destimation de x en y, dquation :

x = x + a(y y) avec a =

cov(x, y) 4.26
=
= 0.34
V(y)
12.62

x = 5 + 0 .34 ( y 10 .6 ) qui peut s' crire y = f ( x )


x 5
y 2 =
+ 10 .6 y 2 = 10 .6 + 3( x 5)
0 .34
Elle diffre de la prcdente par sa pente.

nb. de calories par jour

30
25
20
15
10
5
0
0

nb. d'units de consommation

22

10

12

4.4. Retour sur le coefficient de corrlation linaire

Les deux droites destimation trouves sont diffrentes. Le carr du coefficient de corrlation
linaire est prcisment gal au produit des pentes.
2

cov( x , y )
cov( x , y ) 2
= r2

aa =
=
V ( x ) V ( y ) x y

r 2 = aa = 0.86 2 = 0.75
Si les deux droites taient identiques, r serait en valeur absolue gal 1. Si les droites sont
proches, | r | est voisin de 1. Par contre si | r | est voisin de 0, les deux pentes sont loin dtre
inverse lune de lautre, et par consquent les droites dajustement sont sensiblement
diffrentes : les points reprsentatifs sont loin dtre rellement aligns.

V.

Application de la mthode des moindres carrs des donnes groupes

5.1. Mthode

Le principe de la mthode est le mme, calculer si ncessaire les centres de classes.


Le tableau ci-dessous reprsente la rpartition des distances parcourues par des vhicules
aprs un coup de frein selon la vitesse.

80

70
1

20

90
2

100
3

110
4

25

13

29

24

12

12

21

12

10

47

48

75

n.jxj
n.jxj2
nijyi

x vitesse (km/h)
ni.
yi
120
5

ni.yi

ni.yi2

nijxj

xy

yi

75

5625

2300 76,67

80500

25

75

1875

225

30

35

1050

36750

78

50

3900 195000

6980 89,49 349000

56

70

3920 274400

5300 94,64 371000

16

33

90

2970 267300

3375 102,3 303750

55

40

10

200

85

95

105

115

3525

4080

5225

4200

1150

264375

346800

496375

441000

2020

2645

3570

2880

800

72

80

302400

92000

30

y distance (m)

40
60
80
100
n.j
xj

yx
xj

42,97872 55,10417 64,90909


151500

224825

339150

11915 775325 18180

1109875

18180

132250 1680800
11915
1109875

Les colonnes ni.yi, ni.yi2 et les lignes n.jxj et n.jxj2 permettent de calculer les caractristiques
des deux distributions marginales.

23

11915
= 59.58 m
200
775325
V(y) =
(59.58)2 = 327.44
200
y = 18.1 m
y=

18180
x=
= 90 .9 km / h
200
1680800
V(x ) =
(90 .9 ) 2 = 141 .19
200
x = 11 .9 km/h

5.2. Distributions conditionnelles : courbes de rgression

Sur ce tableau il est possible danalyser les distributions conditionnelles.


En calculant sur une ligne

n ij x

Il est possible de calculer xy, cest dire la moyenne (conditionnelle) de x pour un y donn
(plus exactement, pour y compris entre les limites de classes).
Ainsi pour y compris entre 30 et 40 m. (ligne 2) :

xy =

2j

xj
=

2j

2300
= 76.67 km/h.
30

De mme, en colonne, on calcule les moyennes conditionnelles de y pour x donn.


Pour x compris entre 100 et 110 km/h :

n y
=
n
i4

yx

= 72 m.

i4

Il serait possible de mme de calculer les cart-types conditionnels.


Lensemble des points de coordonnes ( y x , xi ) constitue la courbe de rgression de y en x,
et lensemble des points de coordonnes ( x y ,yi ) constitue la courbe de rgression de x en y.
Ces deux courbes reprsentent valablement la distribution.
On peut en dduire que si on roule telle vitesse, on sarrte en moyenne en tant de mtres.
Ou si lon a besoin de tant de mtres pour sarrter, cest quon roulait en moyenne telle
vitesse.
Il nest gure possible de dcrire efficacement lensemble des 200 observations.

24

Figure 2

100

distance en m

90

courbe de rgressionde y en
x
courbe de rgressionde x en
y

80
70
60
50
40

Linaire (courbe de
rgressionde x en y)
Linaire (courbe de
rgressionde y en x)

30
20
70

80

90

100

110

120

130

vitesse en km/h

5.3. Coefficient de corrlation linaire

On peut constater que les deux courbes de rgression sont sensiblement diffrentes de droites.
Il est possible en effet de vrifier que le coefficient de corrlation linaire entre x et y est assez
mauvais. Pour obtenir la covariance on calcule :

y n
i

ij

xj =

x n
j

cov( x , y ) =

1109875
200

ij

yi =

ij

x jy i

( 90 . 9 )( 59 . 58 ) = 133 . 55

Do le coefficient de corrlation linaire :

r=

133 .55
= 0 .62
18 . 1 11 . 9

Ce coefficient est presque gal 0.60, ce qui est faible. Lajustement linaire ne reprsente
pas un bon rsum des observations. Puisquil est toujours possible de calculer les droites des
moindres carrs, nous allons vrifier que lajustement linaire est mauvais en calculant les
quations de ces droites.

5.4. Droites destimation par la mthode des moindres carrs

Pour la droite destimation de y en x :

a =

cov( x , y )
133 . 55
=
= 0 . 95
V (x )
141 . 19

25

Do lquation :

y 1 = y + a ( x x ) = 59 . 58 + 0 . 95 ( x 90 . 9 )
Pour la droite destimation de x en y :
a =

cov( x , y )
133 . 55
=
V (y)
327 . 44

= 0 . 41

Lquation est, en rtablissant les axes :

x = x + a ( y y ) y =

x x
+ y y 2 = 59 . 58 + 2 . 44 ( x 90 . 9 )
a

Ces deux droites, traces sur la figure 2, sont diffrentes ; par contre, elles ne sont pas trs
loignes chacune de la courbe de rgression correspondante. Ce rsultat explique la
frquente confusion entre courbe de rgression et droite dajustement par la mthode des
moindres carrs .

VI.

Ajustement non linaire

Il peut arriver que les points reprsentant une srie double ne soient pas aligns, mais soient
voisins dune courbe connue. On se sert alors en gnral de la mthode des moindres carrs,
mais en transformant au pralable lune des variables. Ainsi, un ajustement entre y et xn donne
un ajustement de la forme y = a xn + b ; un ajustement entre y et ln x donne :
y =b eax.
Relations usuelles :

y = a exp( bx )
y = ax b
y = a + b log x
y = cx a + dx b
y = a 0 + a 1 x + a 2 x 2 (parabole)
y = ab x (gomtriq ue)
y = ca bx (Gompertz)
y = abx b -1 exp( ax b ) (Weibull)

Il est galement possible de raliser des ajustements linaires ou non, plusieurs variables,
toujours sur le principe de la mthode des moindres carrs.

26

VII.

Quelques conseils pour lajustement linaire

Faire dabord une tude graphique. On distinguera ainsi si un ajustement, linaire ou non
peut se justifier.

Un coefficient de corrlation est compris entre 1 et +1.

Calculer le coef. de corrlation avant deffectuer lajustement, si ce coef est trop faible en
valeur absolue, ne pas continuer les calculs (chercher un ajustement non linaire)

La covariance est du mme signe que la pente de la droite ajuste.

27

CHAPITRE 4 : LES PRINCIPALES LOIS DE PROBABILITE


I.

Loi binomiale

Lorsque les ventualits se rduisent une alternative ( succs ou chec ), la variable


alatoire nombre de succs suit une loi de probabilit appele loi binomiale dfinie par :
- chaque preuve donne lieu deux ventualits exclusives de probabilit constante p
(succs) et donc q=1-p (checs).
- Les preuves rptes sont indpendantes.
La loi binomiale est note B(n,p) et a pour caractristique :
E(X)=np

V ( X ) = n ( p p 2 ) = np (1 p ) = npq et =

npq

Remarques : la loi binomiale est symtrique pour p=1/2, et dissymtrique sinon, la


dissymtrie est dautant plus forte :
- Pour n fixe, que p est diffrent de q
- Pour p fixe, que n est petit.

II.

Loi hypergomtrique

Dans le cas de la loi binomiale, la proportion p dlments possdant le caractre recherch


est fixe, ce qui peut changer si par exemple le tirage se fait sans remise.
Pour une population deffectif N dont on tire un chantillon deffectif n sans remise :

E ( X ) = np

et

V ( X ) = npq

N n
N 1

Si N est grand par rapport n et si p nest pas trop voisin de 0 ou de 1, il est possible de faire
une approximation de la loi hypergomtrique par la loi binomiale.

III.

Loi de Poisson

On appelle processus de Poisson, la ralisation dvnements alatoires dans le temps et dans


lespace, obissant aux conditions suivantes :
- la probabilit de ralisation de lvnement au cours dune petite priode ou sur une petite
portion despace t est proportionnelle t, soit p t,
- la probabilit de deux apparitions sur le mme t est ngligeable. Ainsi des vnements qui
se ralisent de faon alatoire dans le temps : appels tlphoniques sur un central, pannes de
machines, arrives un page dautoroute ou un guichet de vente, ou dans lespace :
rpartition de points au hasard sur une droite peuvent tre considrs comme raliss par
un processus de Poisson.

28

em m x
E (X ) = x
x!
x =0

En utilisant
em =

mx
E (X ) = m
x!

V (X ) = m
Remarque : On substitue en gnral une loi de Poisson une loi binomiale si lon a la fois :
n>50 et np<5.

IV.

Loi normale

On parle de loi normale ou loi de Laplace Gauss ou loi de Gauss ou encore deuxime loi de
Laplace, lorsquon a affaire une variable alatoire continue dpendant dun grand nombre de
causes indpendantes, dont les effets sadditionnent et dont aucune nest prpondrante
(conditions de Borel).
Exemple : les dimensions de pices fabriques dpendent du rglage de lappareil de
fabrication, des vibrations auxquelles il est soumis, de lhomognit de la matire premire,
de la temprature, de lhumidit Lorsque tous ces facteurs sont indpendants et quaucun
nest prpondrant, on peut supposer que les dimensions suivent une loi normale .

Une variable alatoire continue X est distribue selon une loi normale si sa densit de
probabilit est
( xm )
1
f ( x) =
e
2

, x

la loi de probabilit dpend de deux paramtres : m et ; on la note N(m , ).


On a lhabitude deffectuer le changement de variable :
T

La loi de distribution de T est alors :

f (t) =

t2
1
e 2
2

note N(0,1). Cette loi est dnomme loi normale centre rduite.
Remarque : f est une fonction paire.

Voici les caractristiques dune variable alatoire X distribue selon N(0,1) :

29

En utilisant lintgrale de Gauss :


+

t2
2

dt =

On dmontre que : E(X)=0, (X)=1.


Sa forme est :

Remarque : La valeur m dtermine laxe de symtrie de la courbe.

Pour une loi N(m,), E(X)= m = mdiane = mode


Ecart-type =
Remarque : Du fait de la multiplicit des facteurs qui interviennent dans de nombreux
phnomnes physiologiques, gntiques, co ou thologiques, le loi normale est fondamentale
en biologie.
V.

Loi du 2 de Pearson

Dfinition : tant donnes variables alatoires normales centres, rduites et indpendantes


Xi, la somme :
2 =

2
i

i =1

suit une loi du 2 , dite degrs de libert.


On calcule sa moyenne et sa variance :

E ( 2 ) = et V ( 2 ) = 2

30

La distribution du 2 tend devenir symtrique quand n augmente, on peut lassimiler la


distribution normale pour >30.
Importante en biologie : comparaisons (moyenne, variance), calcul des intervalles de
confiance, tests de conformit, dindpendance de deux caractres.

VI.

Loi de Student

Soient X et Z deux variables alatoires indpendantes. Z suit une loi du 2 degrs de


libert et X une loi N(0,1). La variable alatoire
T =

X
Z

suit une loi de Student (ou loi de Student-Fisher) degrs de libert.


On calcule sa moyenne et sa variance pour >2 :

E (T ) = 0

et

V (T ) =

Il existe des tables de la loi de Student qui donnent t tel que :

Utilise pour les comparaisons de paramtres (moyenne), estimation des paramtres dune
population partir dun chantillon.
31

VII.

Loi de Fisher-Snedecor

Si X12 et X22 sont un couple de variables alatoires indpendantes suivantes deux lois du 2
1 et 2 d.d.l. , alors :
2

X1
F=

X2

suit une loi F(1 , 2).


La loi de Fisher-Snedecor sapplique lors de la comparaison de variances exprimentales et
pour lanalyse de variance et covariance.
Sa fonction de densit est toujours positive :

32

33

S-ar putea să vă placă și