Cours Ms Logistique Stat Descriptive

1re partie : STATISTIQUE DESCRIPTIVE
CHAPITRE 1 : COLLECTE DE LINFORMATION, TABLEAUX ET

GRAPHIQUES.
I.
Dfinition et vocabulaire
Dfinition : la statistique est une mthode scientifique qui consiste runir des donnes
chiffres sur des ensembles nombreux, puis analyser, commenter et critiquer ces
donnes.
Cette science na pas pour objet la connaissance des lments des ensembles dans ce
qui fait leur individualit, mais au contraire dans ce quils ont en commun : il sagit dobtenir
des rsultats globaux. Ainsi, une enqute statistique portant sur des personnes na pas besoin
de faire intervenir leurs noms, mais seulement les renseignements que lon dsire tudier : elle
permet de connatre la rpartition de ces personnes par ge, par sexe, groupe sanguin
Comme toute science, la statistique fait appel un vocabulaire spcialis :
-
Les ensembles sont appels populations. Comme un ensemble, une population statistique
doit tre clairement dfinie.
Les lments de la population sont appels individus ou units statistiques, (que ce soient
des hommes ou des automobiles).
La population est tudie selon un ou plusieurs caractres.
Un caractre permet de dterminer une partition de la population selon diverses modalits.
Ainsi le sexe est un caractre deux modalits : masculin et fminin.
Lorsque les modalits du caractre sont des nombres, le caractre est dit quantitatif ; on
lui donne souvent le nom de variable statistique. Une variable statistique peut tre discrte
si elle ne prend que des valeurs isoles ou continue si elle peut prendre nimporte quelle
valeur intermdiaire entre deux valeurs donnes.
Lorsque les modalits du caractre ne sont pas mesurables, le caractre est dit qualitatif.
Les modalits dun caractre qualitatif peuvent faire lobjet dune nomenclature ou
numration ; la nomenclature doit en principe tre courte (une dizaine pour une tude
statistique simple). Mais les exigences de ltude sont parfois telles que la nomenclature
occupe des volumes entiers : cest le cas de nomenclatures codes des catgories
socioprofessionnelles et des professions faites par lI.N.S.E.E.
Exemples : Pour des chmeurs, lge est un caractre quantitatif continu ; le nombre
denfants est un caractre quantitatif discret. Pour des automobiles, la couleur est un caractre
qualitatif.
II.
La collecte des informations
Le premier objet de la mthode statistique est de runir les informations avant de les traiter.
Voici quelques gnralits :

- Objectif de linformation. Enqute : Il importe, ds le dpart, de bien dfinir le ou les
objectif(s) avant de raliser lenqute. Si un lment est oubli dans les premires recherches,
il risque dtre long et coteux de le rechercher ensuite.
Exemple : Si lon ralise une enqute sur lemploi dans un secteur dtermin, il ne faut oublier
aucune variable. On peut demander aux personnes interroges leur qualification
professionnelle, leur ge, etc Mais si ensuite on saperoit que le salaire est un caractre
important, il est trop tard et il faut refaire lenqute.
- Quantit dinformation : Cependant il ne faut pas tre trop ambitieux. Il ne doit pas y avoir
de lacunes dans linformation mais il ne doit pas y avoir trop dinformations, car il devient
alors impossible den tirer une synthse.
- Collecte de donnes : Les donnes sont recueillies soit par observation directe, soit
indirectement.
- observation directe : enqute mene par les statisticiens laide de questionnaires qui sont
ensuite dpouills.
- Observation indirecte statistiques dune entreprise tires de sa comptabilit, statistiques de
naissances et des dcs tires de ltat civil .
- Diffrents modes de collecte de linformation :
- Les rsultats statistiques peuvent tre obtenus partir dune enqute exhaustive
instantane (dnombrement instantan ou recensement) ou dun relev continu (tat
civil).
- De mme, lenqute peut tre exhaustive ou partielle. Lenqute exhaustive porte sur
toutes les units de la population ; elle est utile mais souvent coteuse. Cest pourquoi
on a recours des enqutes partielles faites sur un chantillon de la population : il
sagit alors de sondage, et il faut dterminer un chantillon reprsentatif, de manire
que les rsultats statistiques trouvs sur cet chantillon soient voisins de ceux que lon
aurait obtenus si on avait tudi la population entire.
III.
Dpouillement des observations
Lorsque les observations sont obtenues, elles doivent tre classes et exploites. Auparavant
une critique des rponses doit tre faite afin dliminer les contradictions et les
invraisemblances. Pour chaque caractre tudier, on dfinit un certain nombre de classes
selon les modalits, puis on fait le tri des observations, cest dire une rpartition par classes.
Ces oprations peuvent tre faites la main ou laide dun ordinateur. Le document
denqute doit tre au moins partiellement cod pour viter la surcharge des mmoires.
IV Tableaux statistiques
On peut reprsenter les donnes brutes dune tude dans un tableau. Mais il est possible den
dduire un tableau plus clair, en faisant un regroupement par classes. On choisit les classes
pas trop nombreuses, mais suffisamment pour quil ny ait pas de perte dinformation. Il
importe que les classes recouvrent tous les rsultats et aient une intersection vide, do les
formulations du type de moins de ; la diffrence entre les deux extrmits est
appel amplitude de la classe.
On peut fixer le nombre de classes selon lun des deux formules suivantes :
i)
Rgle de Sturge : nb. de classes = 1+ (3.3 log n)
ii)
Rgle de Yule :
nb. de classes = 2.54 n
Avec n = effectif de lchantillon.

Lamplitude de classe est alors donne par :
valeur max. - valeur min.
nb. de classes
Leffectif dune classe est le nombre dlments de la population observs dans cette classe.
La frquence est le rapport de cet effectif leffectif total de la population. La frquence est
exprime en pourcentage.
Exemple 1: On sintresse la charge de rupture dun fil en grammes.
711
915
853
789
941
890
763
892
914
889
862
873
700
790
909
925
805
893
794
791
851
926
885
753
784
895
796
915
931
782
912
864
857
910
882
768
759
890
701
713
922
800
844
847
859
869
916
888
772
724
791
931
907
784
903
892
853
865
935
868
825
722
917
936
925
895
789
909
887
842
935
774
786
706
704
912
942
931
880
892
895
903
820
758
792
850
712
710
933
905
758
925
930
887
888
920
764
798
905
792
8462
8633
8499
8160
8587
8816
8099
8691
8652
8198
84797
On va regrouper ces donnes en classes. Nous avons un effectif de 100 ce qui nous donne en
nombre de classes daprs les rgles de Sturge et de Yule : 7 classes. En fait dans lexemple
ils en prennent 6.
Charge en grammes Effectifs
IV.
Frquences
700 moins de 750
10
0,1
750 moins de 800
23
0,23
800 moins de 840
0,04
840 moins de 880
15
0,15
880 moins de 920
32
0,32
920 et plus
16
0,16
TOTAL
100
Graphiques
4.1. Cas de distributions quantitatives

Les graphiques sont normalement raliss en portant en abscisse la variable observe et en
ordonne leffectif ou la frquence.
-
dans le cas dune variable discrte, le graphique est un diagramme btons, ainsi
apparat la discontinuit entre deux valeurs.
dans le cas dune variable continue, le graphique est un histogramme. La surface
limite par lhistogramme doit tre proportionnelle leffectif ou la frquence. Il
convient de prendre garde lamplitude des classes (on se ramne la plus petite
amplitude, amplitude lmentaire, et on divise la hauteur du rectangle par la mesure de
lamplitude de la classe par rapport cette amplitude lmentaire).
hauteur du rectangle =
effectif ou frquence amplitude lmentair e

amplitude de la classe
Exemple : On a rcolt les donnes suivantes :
charges en g. (classes)
700 moins de 750
750 moins de 800
800-840
840-880
880-920
effectifs
amplitude
hauteur du rectangle
50 (10*40)/50=8
50 (23*40)/50=18,4
40
4
40
15
40
32
10
23
4
15
32
effectifs par classes

35
30
25
20
sans tenircompte de l'amplitude
15
en tenant compte de l'amplitude
10
5
0
1
4.2. Cas de distributions qualitatives

Diverses mthodes sont possibles, par exemple :
-
on peut raliser des diagrammes bandes

ou des diagrammes secteurs
CHAPITRE 2 : ETUDE DES SERIES STATISTIQUES SIMPLES.

I.
Introduction
Un tableau statistique ou un graphique sont parfois long consulter, sans permettre davoir
une ide suffisamment concise de la distribution statistique observe. On cherche alors
rsumer celle-ci par une caractristique de tendance centrale, cest dire par un seul nombre
destin caractriser lensemble dune faon objective et impersonnelle, comme par exemple
la moyenne arithmtique, la mdiane ou le mode.
II.
La moyenne arithmtique
La moyenne arithmtique dune srie de valeurs dune variable statistique est gale la
somme de ces valeurs divise par leur nombre.
2.1. Cas de donnes numres

La formule gnrale est, pour n observations x1, x2, x3, xn :
x=
x1 + x2 + ...+ xn
n
2.2. Cas dune variable discrte

Si la variable est discrte on emploie la formule de la moyenne pondre. Pour t classes
deffectifs ni ou de frquences fi la moyenne x scrit pour les valeurs x1, x2, x3, xt de la
variable :
x=
n1 x1 + n2 x2 + ...+ nt xt f1 x1 + f2 x2 + ...+ ft xt
=
n1 + n2 + ...+ nt
f1 + f2 + ...+ ft
On a lhabitude de rsumer cette criture en employant le signe :

t
x =
n ix
i =1
i =1
fix
i =1
t
fi
i =1
2.3. Variable continue et donnes groupes.

Si la variable est continue et si les donnes sont groupes on ne peut que rechercher
arbitrairement une moyenne lintrieur de chaque classe ; dfaut on choisit le centre de
classe . Le calcul est effectu comme si tous les individus dune classe avaient pour caractre
le centre de classe, avec toute la part dapproximation que cela comporte.
Exemple : Lors dune tude sur la rsistance dun mtal, on a ralis 100 expriences de
rupture en charge dun fil de mme paisseur et lon a not les poids limites dans chaque cas.
Le tableau ci-dessous reprsente la rpartition par classes des rsultats.
On calcule la moyenne de la charge de rupture dun fil, partir des effectifs.
Tableau 1
charge en grammes
700
750
effectifs centre de classe

ni
xi
10
725
7250
23
775
17825
820
3280
15
860
12900
32
900
28800
16
940
15040
800
840
880
920
nixi
960
TOTAL
x =
nx
n
i
85095
100
100
85095
= 850 , 95 851 g.
Remarque : si on avait fait le calcul sur les donnes brutes on aurait trouv : 848g. Cette perte
de prcision est due au regroupement des donnes en classes, et au choix des centres de
classes comme moyenne de la classe, do perte dinformation.
III.
Le mode ou la classe modale
Le mode ou valeur modale est la valeur que la variable statistique prend le plus frquemment.
-
Dans le cas dune variable discrte, le mode peut tre trouv immdiatement, au vu du
tableau des frquences ou des effectifs.
Si la variable est continue, et si les donnes sont groupes en classes, on parle plutt de
classe modale : la classe ayant leffectif le plus lev (effectif ramen lunit
damplitude). Attention il peut arriver que la classe modale ne soit pas celle o leffectif
apparat, sur le tableau, le plus lev. En effet, cette dernire classe peut avoir une
amplitude plus grande quune autre dont leffectif par unit damplitude, est plus lev.
Sur lexemple prcdent, si la classe 700 moins de 800 figurait, son effectif serait 33,
suprieur celui retenu pour la classe modale. Mais ramen lunit damplitude 40,
leffectif ne serait plus que : 33*40/100=13.2. La rpartition des charges de rupture dun
fil a pour classe modale la classe 880 moins de 920 , deffectif 32.
IV.
La mdiane
La mdiane dune srie statistique est une valeur de la variable telle quil y ait autant
dobservations ayant une valeur suprieure la mdiane que dobservations ayant une valeur
infrieure la mdiane.
Exemple : si nous considrons les cinq valeurs suivantes : 711 862 851 912 922.
Ces valeurs peuvent tre ranges selon les grandeurs croissantes : 711 851 862 912 922.
La valeur 862 est telle que deux observations ont une valeur infrieure et deux autres une
valeur suprieure : cest la mdiane.
Lorsque les observations sont toutes donnes, il suffit donc de les classer par ordre de
grandeurs croissantes (ou dcroissantes), et de prendre celle qui se trouve au milieu. Si le
nombre des observations est pair, la mdiane peut tre thoriquement lune quelconque des
valeurs comprises entre les deux valeurs centrales observes ; le plus souvent on choisit leur
demi-somme.
Si par contre les observations sont regroupes en classes , il est ncessaire de recourir aux
effectifs ou aux frquences- cumuls.
V.
Effectifs ou frquences cumuls.
Il est souvent intressant, devant une srie statistique, de pouvoir dire il y a tant
dobservations ou il y a tel pourcentage dobservations infrieures telle valeur (ou
suprieures). Cest ce genre de proccupation que rpond le calcul des frquences ou des
effectifs cumuls.
5.1. Variable continue

On ajoute leffectif dune classe leffectif cumul prcdent, en commenant par le haut du
tableau pour leffectif cumul moins de et le bas pour leffectif plus de , voir tableau 2.
La seule difficult est de bien commencer ; pour cela, il suffit de se rfrer la signification
des rsultats ; si lon cherche combien de fil nont pu rsister un poids de moins de 700g, le
tableau 2 permet de rpondre quil ny en a aucun, on crit leffectif cumul 0 en face du
poids 700g.
On lit par exemple que 67 fils ont support une charge de plus de 800g. Il est possible
deffectuer une reprsentation graphique des effectifs cumuls.
Tableau 2
charge en grammes

xi
ni
700
750
800
840
880
920
nixi
10
725
7250
23
775
17825
820
3280
15
860
12900
32
900
28800
16
940
15040
effectifs cumuls
"- de"
0
"+ de"
100
10
90
33
67
37
63
52
48
84
16
100
960
100
TOTAL
85095
Effectifs cumules
100
80
60
"+ de"
40
"- de"
20
0
600
700
800
900
1000
charge en g.
5.2. Variable discrte

Si la variable est discrte, une petite difficult supplmentaire apparat, au niveau de la
signification. Plusieurs dfinitions des effectifs ou frquences cumuls sont possibles
Il faut faire attention si on parle au sens stricte ou au sens large.
VI.
Calcul de la mdiane
La mdiane est la valeur de la variable qui correspond la frquence cumule 50% ou

leffectif cumul n /2.
On calcule la valeur de la variable correspondant la frquence cumule 50%.
Considrons les donnes du tableau 2 : la mdiane M correspond leffectif 100/2=50. On
procde linterpolation linaire sur les effectifs cumuls moins de (ou ventuellement
plus de ) :
effectifs cumuls "moins de"
840
880
37
52
55
50
45
40
35
30
25
20
830
840
850
860
870
880
890
Le point de coordonnes (M,50) est sur la droite passant par les points A et B.
Trouvons lquation de cette droite : y=ax+b.
A(840,37)
x=
et B(880,52)
37 = 840 a + b
15 = 40 a a = 3 8

b = 278
52 = 880 a + b
yb
50 + 278
M=
874,67 875 g.
3
a
8
Remarque : Cette valeur peut tre lue sur le graphique des effectifs cumuls ; cest la valeur
de la variable correspondant leffectif 50 ; on lit environ 875g.
VII.
Etendue.
Ltendue est la diffrence entre la valeur maximale et la valeur minimale dune srie.
VIII. Caractristiques de dispersion

On considre les deux sries de donnes suivantes : 95 97 100 103 105
50 75 100 125 150
Elles ont mme moyenne arithmtique et mme mdiane (100). Cependant elles diffrent
profondment. Ce qui fait leur diffrence, cest ce quen statistique on nomme la dispersion ;
la deuxime srie est beaucoup plus disperse que la premire.
Il est donc important de rsumer une srie statistique non seulement par des caractristiques
de tendance centrale, mais aussi par des caractristiques de dispersion. Nous en dfinirons de
deux sortes : celle lies la moyenne : cart absolu moyen et cart-type ; celles lies la
mdiane : cart interquartile, cart interdcile, etc
10
IX.
Ecart absolu moyen
On calcule dabord lcart la moyenne. Pour chaque valeur de la variable x, on calcule

lcart de cette valeur la moyenne x ; on cherche ensuite rsumer ces carts en calculant
une moyenne.
Pour les deux sries du VII, les carts sont : -5 -3 0 3 5
-50 -25 0 25 50
Il est impossible de rsumer ces carts par leur moyenne arithmtique, puisque par dfinition
mme de x :
n
(x x) = nx + x
i
i =1
= nx + nx = 0
i =1
Cependant, la simple vue des deux lignes dcart calcules ci-dessus montre que ceux-ci
caractrisent convenablement la dispersion. On a alors recours la moyenne des valeurs
absolues des carts, cest lcart absolu moyen :
e =
xi x
n
Ou, si les observations sont rparties par classes :

e=
xi x
n
Pour la premire srie observe on a :
e1 =
16
= 3, 2
5
Et pour la deuxime :
e2 =
150
= 30
5
Cette caractristique rend convenablement compte de la diffrence de dispersion entre les

deux sries. Elle est cependant peu utilise. En outre, la formulation des lois statistiques fait
appel une autre caractristique : l'cart type.
X.
Ecart-type
10.1. Dfinition
La caractristique de dispersion la plus usuelle est en effet lcart-type. Puisque la moyenne
arithmtique des carts la moyenne est nulle, on a recours la moyenne quadratique de ces
carts. On dfinit :
11
la variance dune srie : cest une moyenne arithmtique des carrs des carts la
moyenne :
V =
n (x x)
n
i
Lcart type dune srie : cest la moyenne quadratique des carts la moyenne, autrement
dit, cest la racine carre de la variance.
V =
(x i x)2
En reprenant les sries du 7, on a pour la premire :
v1 =
25 + 9 + 25 + 9
= 13,6 et 1 = 3,69
5
Et pour la deuxime :
v2 =
2500 + 625 + 625 + 2500 6250

=
= 1250 et 2 = 35,36
5
5
10.2. Mthode de calcul

Les calculs risquent de devenir laborieux si la moyenne nest pas entire : on a traiter des
carts la moyenne non entiers avec dinvitables arrondis, do des calculs lourds et
forcment peu prcis. Pour allger les calculs, on se sert du thorme de Koenig.
Dveloppons :
S = ni (xi x)2
= n i x i 2ni xi x + ni x 2
2
n i x i + nx 2
n i x i 2x
123
2
nx
car
nixi
x=
= ni xi nx2
2
On exprime souvent ce thorme partir de la formule de la variance qui sen dduit :
n x
V(X) =
i
2
i
(x) 2
12
La variance est gale la moyenne des carrs moins le carr de la moyenne. Ce rsultat
simplifie considrablement les calculs ncessaires pour obtenir la variance et lcart-type ;
cest sous cette forme que le thorme de Koenig est utilis ds quon dispose dune machine
calculer.
Remarque : cette dernire formulation de la variance limite les erreurs darrondis car la
moyenne nintervient quune seule fois alors que dans la formulation prcdente elle
intervient i fois.
10.3. Exemples
Il est possible de calculer la variance et lcart type sur lexemple du 2.
Pour la rupture en charge des fils, sur les donnes groupes du tableau 1. On utilise la
formule :
n x
V(X) =
i
2
i
(x) 2
Tableau 3
charge en grammes

ni
xi
700
750
800
840
880
920
nixi
nixi2
10
725
7250
5256250
23
775
17825
13814375
820
3280
2689600
15
860
12900
11094000
32
900
28800
25920000
16
940
15040
14137600
85095
72911825
960
100
TOTAL
n x
V(X) =
n
i
2
i
(x)2 =
72911825
(850,95) 2 = 5002,35
100
= 5002,35 = 70,73 g.
10.4. Signification de lcart type
Remarque : Il existe une autre quantit reprsentante de la dispersion dune srie, cest
ltendue :
tendue = valeur maximale valeur minimale.
13
Lorsque lon compare deux sries de mme nature, celle qui a lcart type le plus lev est la
plus disperse.
Cependant, par rfrence une loi statistique usuelle, la loi normale, il est possible de
prciser un peu la signification de lcart type. Lorsquune srie statistique satisfait la loi
normale, 95% des observations sont comprises entre x 2 et x + 2 : plus lcart type est
lev, plus les observations sont disperses. Si la srie statistique tudie, sans suivre une loi
normale, nest pas trop dissymtrique, la mme proprit est approximativement vraie.
On dduit de la proprit nonce ci-dessus dans le cas de la loi normale, la rgle de
vrification suivante : ltendue dune srie statistique (diffrence entre observation la plus
leve et la plus basse) est du mme ordre de grandeur que quatre cart-types.
Par exemple : pour la rupture en charge de fils, ltendue est certainement infrieure
960-700=260g (en effet 960 et 700 sont des extrmits de classes dont on sait par les donnes
brutes quelles ne sont pas toutes deux atteintes) et 4=283g : les deux nombres ne sont pas
gaux mais ils sont du mme ordre de grandeur.
10.5. Coefficient de variation

Ltendue, la variance et lcart type sont des paramtres de dispersion absolue qui mesurent
la variation absolue des donnes. Cependant, un cart type de 6 mm na pas la mme
signification sil se rapporte des mesures de lordre de 160 mm ou des mesures de lordre
de 80 mm. Aussi dispose-t-on dun indice de dispersion relative appel coefficient de
variation, not CV. Par dfinition, le coefficient de variation est gal
CV =
100
x
Remarque : ce coefficient cesse dtre efficace pour x petit.

Ce coefficient de variation a lavantage dtre comparable pour toutes les sries statistiques.
Exemple : (rupture en charges ) le coefficient de variation de la srie tudie ci-dessus est :

70,73
= 0.08
850,95
La srie de poids apparat peu disperse, parce que toutes les observations sont
relativement voisines de la moyenne.
XI.
Caractristiques de position : quartiles, dciles, centiles
14
Les quartiles, dciles et centiles sont des caractristiques qui correspondent au mme genre de
proccupation que la mdiane.
Il sagit des valeurs de la variable qui correspondent aux effectifs cumuls :
n/4, 2n/4, 3n/4
n/10, 2n/10,9n/10
n/100, 2n/100,99n/100
pour des quartiles, le 2me quartile est la mdiane,

pour les dciles ; le 5me dcile est la mdiane,
pour les centiles ; le 50me centile est la mdiane.
On les appelle caractristiques de position, puisquelle permettent de placer les valeurs de la

variable.
- Cas dune variable continue
Les calculs seffectuent comme ceux concernant la mdiane.
Reprenons lexemple de rupture des fils. Les quartiles peuvent tre dtermins soit
graphiquement, soit par un calcul dinterpolation linaire. La premier quartile Q1 correspond
leffectif cumul 25% soit :
A
?
B
750
Q1
800
10
25
33
10 = 750a + b
23
23
23 = 50a a =
et b = 10 750 = 335
50
50
33 = 800a + b
Ce qui donne :
25 = Q1
23
50
335 Q1 = (25 + 335)
= 782,61 783 g.
50
23
De mme on peut trouver pour le 3me quartile : (Q3,75)
Q 3 = 908,75g 909 g.
On calculerait de la mme manire les dciles. Pour le 1er et le 9me dcile, on obtient :
D1=750 g et D9=935 g.
- Cas dune variable discrte

Le principe est le mme.
Pour des populations nombreuses, on calculerait de mme certains centiles, particulirement
les centiles extrmes, C1 et C99.
XII.
Caractristiques de dispersion : tendue, carts interdciles, carts interquartiles
15
Les caractristiques de position dfinies au X suggrent une manire de caractriser la

dispersion sensiblement diffrente de celle qui aboutit lusage de lcart-type. En effet, un
intervalle dans lequel on trouve toute la population tudie, ou un intervalle lintrieur
duquel se situe 80% de cette population, les 10% extrmes (les plus aberrants) tant limins
des deux cts, peut donner une ide de la faon dont se rparti une srie.
Le premier intervalle ainsi dfini est ltendue, diffrence entre lobservation la plus
leve et lobservation la plus faible. Le second est lcart interdcile : D9 D1. On dfinit de
la mme manire lcart interquartile : Q3 Q1.
Ainsi pour la srie des charges de rupture du fil, ltendue est : e= 960-700 =260 g.
Lcart interdcile est : D9-D1 = 935-750=185 g
Interprtation de ce rsultat : En liminant les 10% les plus rsistants et les 10% les moins
rsistants, les charges de rupture des fils sont rparties lintrieur dune plage de 185 g.
Lcart interquartile est : Q3-Q1 = 909-783=126 g.
Interprtation : 50% de la population des fils a une charge de rupture rpartie sur 126g. Cet
cart est lev par rapport au prcdent : mais la rpartition des charges de rupture fait
apparatre en quelque sorte deux populations distinctes ; llimination des 20% ou des 50% de
lensemble qui se trouvent aux extrmits ne fait pas disparatre la classe centrale 800
moins de 840 dont leffectif est trs faible.
On peut faire les mmes calculs pour une variable discrte. Les rsultats sont sensiblement
moins intressants. En effet, il est frquent que des quartiles ou des dciles soient gaux la
mdiane.
XIII. Quelques conseils pour ltude de sries statistiques simples

Il est ncessaire de sparer clairement deux types de calculs :
-
moyenne, cart-type .. raliser partir des centres de classes et des effectifs de classes.
mdiane, quartiles, intervalles interquartiles .. raliser partir des extrmits de classes
et des effectifs cumuls.
16
CHAPITRE 3 : ETUDE DES SERIES STATISTIQUES DOUBLES

I.
Position du problme
Dans les chapitres prcdents on tudiait une population selon un seul caractre. Cependant il
est souvent utile de considrer la fois plusieurs caractres de la mme population : taille,
ge, poids dun groupe denfants ; qualification et salaire de salaris ; temprature et pression
dun milieu diffrentes heures
Nous nous limiterons ici ltude simultane de deux caractres ; lanalyse des donnes
permet den tudier un grand nombre.
II.
Notations et reprsentation des sries statistiques doubles
Une srie statistique double peut tre donne comme lnumration dun certain nombre de
rsultats. La tableau ci-dessous donne la consommation en milliers de calories de douze
familles en moyenne par jour. Chaque homme adulte est compt pour une unit de
consommation ; un enfant est compt pour une part dunit, dpendant de son ge et de son
sexe.
Tableau 1
n de
unit de
consommation
xi
1
5,3
2
7,2
3
5,6
4
7,1
5
5
6
3,3
7
5,2
8
4,5
9
4
10
2
11
5,7
12
4,7
TOTAL
59,6
famille
calories
par jour
yi
13
18
9,4
15,4
7,8
9,3
10,1
7,1
8,9
4,4
12,1
11,5
127
On peut avoir des donnes groupes : on parle alors de tableaux carrs ou de tableaux
double entre. Il est alors ncessaire demployer des notations prcises.
Soient x et y deux caractres (quantitatifs ou non). Les classes du caractre x sont dsignes
par les indices 1,,j,.,p, celles du caractre y par 1,,i,,q.
nij est le nombre dunits reprsentant la modalit yi de y et la modalit xj de x.
Les sommes des effectifs de la ligne i, de la colonne j et de lensemble sont nots
respectivement :
17
n
j=1
ij
= n i. , n . j = n .j , n ij = n ..
i =1
j=1 i =1
Tableau 2 : Notation des tableaux carrs
caractre y
caractre x
xj
x1
x2
y1
n11
n12
n1j
y2
:
:
yi
:
:
yq
n21
n22
:
:
:
:
nq1
:
:
:
n2j
:
:
nij
total
n.1
n.2
n.j
xp
..
n1p
total
n1.
nqp
n2.
:
:
ni.
:
:
nq.
n.p
n..
La dernire ligne et la dernire colonne du tableau reprsentent les distributions marginales,

cest dire la distribution de x sans tenir compte du caractre y ou celle de y sans tenir
compte de x.
La distribution marginale des yi , comme celle des xj, peut tre traite comme une srie
simple. On dfinit en particulier la moyenne y, la variance V(y) et lcart type (y).
De mme, lune quelconque des lignes ou des colonnes du tableau peut tre interprte
comme une distribution conditionnelle.
Il est possible dtudier les distributions conditionnelles comme des sries statistiques
simples.
III.
Ajustement linaire. Principe de la mthode des moindres carrs
Les donnes du tableau 1 peuvent tre reprsentes graphiquement :
18
20
nb. de calories par jour
18
16
14
12
10
8
6
4
2
0
0
nb. d'units de consommation
On constate sur la figure ci-dessus que les points reprsentatifs de la srie des consommations
ne sont pas rigoureusement aligns, mais quils forment un nuage de points allong.
Il nest pas alors dpourvu de sens de chercher si lon peut trouver une droite qui rsume
approximativement lensemble des points. La recherche dune telle droite est un ajustement
linaire.
3.1. Ajustement graphique
Thoriquement, diverses sortes dajustement linaires sont possibles. La plus simple est
lajustement graphique, ralis par le dessinateur. Linconvnient majeur de lajustement
graphique est quil est subjectif.
3.2. Autres ajustements
Dautres ajustements peuvent tre raliss de faon plus objective, par exemple en utilisant les
points extrmes ou les moyennes de certains groupes de rsultats. Lorsquil sagit de sries
chronologiques, il est usuel de raliser un ajustement linaire par de telles mthodes.
3.3. Mthode des moindres carrs
La mthode des moindres carrs prsente un caractre plus rigoureux que les prcdentes.
Elle consiste rechercher une droite telle que la somme de ses distances aux diffrents points
reprsentant les donnes soit minimale. Le mot distance est pris au sens large. La distance
choisie est le carr de la diffrence des ordonnes entre chaque point et le point de la droite
ayant mme abscisse.
3.4. Notion de corrlation linaire
La mthode des moindres carrs peut tre utilise pour nimporte quelle srie double. Quelle
que soit cette srie, il existe une droite destimation par la mthode des moindres carrs. Pour
sassurer de faon objective que lajustement est valable, on calcule le coefficient de
corrlation linaire :
r =
cov( x , y )
x y
19
Ce coefficient est compris entre 1 et +1. Sil est voisin en valeur absolu de 1, lajustement
est valide (0.70 < | r | < 1). La covariance joue un rle analogue la variance dans les sries
statistiques simples, elle est dfinie par :
1
1
cov(x, y) = ( xi x)( yi y) = xi yi x y
n
n
Remarque : si on fait x=y, on retrouve la formule de la variance.
Sur lexemple du tableau 1, calculons le coefficient de corrlation linaire.

A laide de ce tableau, on peut effectuer les calculs suivants :
Tableau 3
n de
famille
unit de
calories
consommation
par jour
xi
5,3
7,2
5,6
7,1
5
3,3
5,2
4,5
4
2
5,7
4,7
59,6
yi
13
18
9,4
15,4
7,8
9,3
10,1
7,1
8,9
4,4
12,1
11,5
127
1
2
3
4
5
6
7
8
9
10
11
12
TOTAL
xi2
28,09
51,84
31,36
50,41
25
10,89
27,04
20,25
16
4
32,49
22,09
319,46
yi2
169
324
88,36
237,16
60,84
86,49
102,01
50,41
79,21
19,36
146,41
132,25
1495,5
xiyi
68,9
129,6
52,64
109,34
39
30,69
52,52
31,95
35,6
8,8
68,97
54,05
682,06
59,6
= 4,97 5 units de consommation
12
127
y=
= 10.58 10,6.10 3 calories.
12
1
319 , 46
2
V (x ) = x i x 2 =
( 4,97 ) 2 = 1,95
n
12
x = 1.4 units de consommati on
x=
V (y) =
1
n
1495 . 5
(10 . 58 ) 2 = 12 . 62
12
y = 3 , 55 . 10 3 calories
yi y2 =
20
1
682 .06
4 .97 10 .58 = 4 .26
xi yi x y =
n
12
cov( x , y ) =
Le coefficient de corrlation est alors :
r =
cov( x , y )
4 . 26
=
= 0 . 86
x y
1 . 4 355
Sans indiquer une bonne corrlation (il faudrait quil soit suprieur 0.95), ce coefficient
autorise lajustement linaire.
IV.
Application de la mthode des moindres carrs des donnes individuelles
4.1. Principe de la mthode
La droite dfinie au paragraphe (3.3) a pour quation :
y = ax + b
On recherche les paramtres a et b. La diffrence des ordonnes entre un point(xi,yi) et le
point de la droite ayant mme abscisse est :
yi yi = yi axi b
La somme des carrs de ces diffrences doit tre minimum :
S=
(y
ax i b) 2 minimum
i =1
Pour dfinir les coefficients a et b, on dveloppe S et on le considre successivement comme

un trinme en b, puis b tant dtermin, comme un trinme en a. On trouve :
b = y ax
a =
( x i x )( y i y )
(x i x )2
xy
x
i
nxy
nx 2
On reconnat au numrateur la covariance de x et de y et au dnominateur la variance de x, au

coefficient n prs.
21
cov( x , y )
V (x )
a =
La forme du coefficient b permet de constater que la droite dajustement passe par le point
moyen (x,y). Son quation est :
y = y + a ( x x )
4.2. Application lexemple du tableau 3 :
En utilisant les formules ci-dessus, on trouve :
a=
4 .26
= 2 .18
1 .95
y = ax + b = ax + y ax = y + a ( x x )
y1 = 10.6 + 2.2( x 5) droite d' estimation de y en x.
4.3. Droite destimation de x en y
Le calcul prcdent fait jouer un rle dissymtrique x et y. Or rien au plan statistique ne

permet de dire si une variable dpend de lautre. Il est alors aussi logique de recommencer les
calculs prcdents, mais en inversant les rles des deux variables.
On dfinit une droite destimation de x en y, dquation :
x = x + a(y y) avec a =
cov(x, y) 4.26
=
= 0.34
V(y)
12.62
x = 5 + 0 .34 ( y 10 .6 ) qui peut s' crire y = f ( x )

x 5
y 2 =
+ 10 .6 y 2 = 10 .6 + 3( x 5)
0 .34
Elle diffre de la prcdente par sa pente.
nb. de calories par jour
30
25
20
15
10
5
0
0
nb. d'units de consommation
22
10
12
4.4. Retour sur le coefficient de corrlation linaire
Les deux droites destimation trouves sont diffrentes. Le carr du coefficient de corrlation
linaire est prcisment gal au produit des pentes.
2
cov( x , y )
cov( x , y ) 2
= r2
aa =
=
V ( x ) V ( y ) x y
r 2 = aa = 0.86 2 = 0.75
Si les deux droites taient identiques, r serait en valeur absolue gal 1. Si les droites sont
proches, | r | est voisin de 1. Par contre si | r | est voisin de 0, les deux pentes sont loin dtre
inverse lune de lautre, et par consquent les droites dajustement sont sensiblement
diffrentes : les points reprsentatifs sont loin dtre rellement aligns.
V.
Application de la mthode des moindres carrs des donnes groupes
5.1. Mthode
Le principe de la mthode est le mme, calculer si ncessaire les centres de classes.

Le tableau ci-dessous reprsente la rpartition des distances parcourues par des vhicules
aprs un coup de frein selon la vitesse.
80
70
1
20
90
2
100
3
110
4
25
13
29
24
12
12
21
12
10
47
48
75
n.jxj
n.jxj2
nijyi
x vitesse (km/h)
ni.
yi
120
5
ni.yi
ni.yi2
nijxj
xy
yi
75
5625
2300 76,67
80500
25
75
1875
225
30
35
1050
36750
78
50
3900 195000
6980 89,49 349000
56
70
3920 274400
5300 94,64 371000
16
33
90
2970 267300
3375 102,3 303750
55
40
10
200
85
95
105
115
3525
4080
5225
4200
1150
264375
346800
496375
441000
2020
2645
3570
2880
800
72
80
302400
92000
30
y distance (m)
40
60
80
100
n.j
xj
yx
xj
42,97872 55,10417 64,90909

151500
224825
339150
11915 775325 18180
1109875
18180
132250 1680800
11915
1109875
Les colonnes ni.yi, ni.yi2 et les lignes n.jxj et n.jxj2 permettent de calculer les caractristiques
des deux distributions marginales.
23
11915
= 59.58 m
200
775325
V(y) =
(59.58)2 = 327.44
200
y = 18.1 m
y=
18180
x=
= 90 .9 km / h
200
1680800
V(x ) =
(90 .9 ) 2 = 141 .19
200
x = 11 .9 km/h
5.2. Distributions conditionnelles : courbes de rgression
Sur ce tableau il est possible danalyser les distributions conditionnelles.

En calculant sur une ligne
n ij x
Il est possible de calculer xy, cest dire la moyenne (conditionnelle) de x pour un y donn
(plus exactement, pour y compris entre les limites de classes).
Ainsi pour y compris entre 30 et 40 m. (ligne 2) :
xy =
2j
xj
=
2j
2300
= 76.67 km/h.
30
De mme, en colonne, on calcule les moyennes conditionnelles de y pour x donn.

Pour x compris entre 100 et 110 km/h :
n y
=
n
i4
yx
= 72 m.
i4
Il serait possible de mme de calculer les cart-types conditionnels.

Lensemble des points de coordonnes ( y x , xi ) constitue la courbe de rgression de y en x,
et lensemble des points de coordonnes ( x y ,yi ) constitue la courbe de rgression de x en y.
Ces deux courbes reprsentent valablement la distribution.
On peut en dduire que si on roule telle vitesse, on sarrte en moyenne en tant de mtres.
Ou si lon a besoin de tant de mtres pour sarrter, cest quon roulait en moyenne telle
vitesse.
Il nest gure possible de dcrire efficacement lensemble des 200 observations.
24
Figure 2
100
distance en m
90
courbe de rgressionde y en
x
courbe de rgressionde x en
y
80
70
60
50
40
Linaire (courbe de
rgressionde x en y)
Linaire (courbe de
rgressionde y en x)
30
20
70
80
90
100
110
120
130
vitesse en km/h
5.3. Coefficient de corrlation linaire
On peut constater que les deux courbes de rgression sont sensiblement diffrentes de droites.
Il est possible en effet de vrifier que le coefficient de corrlation linaire entre x et y est assez
mauvais. Pour obtenir la covariance on calcule :
y n
i
ij
xj =
x n
j
cov( x , y ) =
1109875
200
ij
yi =
ij
x jy i
( 90 . 9 )( 59 . 58 ) = 133 . 55
Do le coefficient de corrlation linaire :
r=
133 .55
= 0 .62
18 . 1 11 . 9
Ce coefficient est presque gal 0.60, ce qui est faible. Lajustement linaire ne reprsente
pas un bon rsum des observations. Puisquil est toujours possible de calculer les droites des
moindres carrs, nous allons vrifier que lajustement linaire est mauvais en calculant les
quations de ces droites.
5.4. Droites destimation par la mthode des moindres carrs
Pour la droite destimation de y en x :
a =
cov( x , y )
133 . 55
=
= 0 . 95
V (x )
141 . 19
25
Do lquation :
y 1 = y + a ( x x ) = 59 . 58 + 0 . 95 ( x 90 . 9 )
Pour la droite destimation de x en y :
a =
cov( x , y )
133 . 55
=
V (y)
327 . 44
= 0 . 41
Lquation est, en rtablissant les axes :
x = x + a ( y y ) y =
x x
+ y y 2 = 59 . 58 + 2 . 44 ( x 90 . 9 )
a
Ces deux droites, traces sur la figure 2, sont diffrentes ; par contre, elles ne sont pas trs
loignes chacune de la courbe de rgression correspondante. Ce rsultat explique la
frquente confusion entre courbe de rgression et droite dajustement par la mthode des
moindres carrs .
VI.
Ajustement non linaire
Il peut arriver que les points reprsentant une srie double ne soient pas aligns, mais soient
voisins dune courbe connue. On se sert alors en gnral de la mthode des moindres carrs,
mais en transformant au pralable lune des variables. Ainsi, un ajustement entre y et xn donne
un ajustement de la forme y = a xn + b ; un ajustement entre y et ln x donne :
y =b eax.
Relations usuelles :
y = a exp( bx )
y = ax b
y = a + b log x
y = cx a + dx b
y = a 0 + a 1 x + a 2 x 2 (parabole)
y = ab x (gomtriq ue)
y = ca bx (Gompertz)
y = abx b -1 exp( ax b ) (Weibull)
Il est galement possible de raliser des ajustements linaires ou non, plusieurs variables,
toujours sur le principe de la mthode des moindres carrs.
26
VII.
Quelques conseils pour lajustement linaire
Faire dabord une tude graphique. On distinguera ainsi si un ajustement, linaire ou non
peut se justifier.
Un coefficient de corrlation est compris entre 1 et +1.
Calculer le coef. de corrlation avant deffectuer lajustement, si ce coef est trop faible en
valeur absolue, ne pas continuer les calculs (chercher un ajustement non linaire)
La covariance est du mme signe que la pente de la droite ajuste.
27
CHAPITRE 4 : LES PRINCIPALES LOIS DE PROBABILITE

I.
Loi binomiale
Lorsque les ventualits se rduisent une alternative ( succs ou chec ), la variable

alatoire nombre de succs suit une loi de probabilit appele loi binomiale dfinie par :
- chaque preuve donne lieu deux ventualits exclusives de probabilit constante p
(succs) et donc q=1-p (checs).
- Les preuves rptes sont indpendantes.
La loi binomiale est note B(n,p) et a pour caractristique :
E(X)=np
V ( X ) = n ( p p 2 ) = np (1 p ) = npq et =
npq
Remarques : la loi binomiale est symtrique pour p=1/2, et dissymtrique sinon, la

dissymtrie est dautant plus forte :
- Pour n fixe, que p est diffrent de q
- Pour p fixe, que n est petit.
II.
Loi hypergomtrique
Dans le cas de la loi binomiale, la proportion p dlments possdant le caractre recherch

est fixe, ce qui peut changer si par exemple le tirage se fait sans remise.
Pour une population deffectif N dont on tire un chantillon deffectif n sans remise :
E ( X ) = np
et
V ( X ) = npq
N n
N 1
Si N est grand par rapport n et si p nest pas trop voisin de 0 ou de 1, il est possible de faire
une approximation de la loi hypergomtrique par la loi binomiale.
III.
Loi de Poisson
On appelle processus de Poisson, la ralisation dvnements alatoires dans le temps et dans

lespace, obissant aux conditions suivantes :
- la probabilit de ralisation de lvnement au cours dune petite priode ou sur une petite
portion despace t est proportionnelle t, soit p t,
- la probabilit de deux apparitions sur le mme t est ngligeable. Ainsi des vnements qui
se ralisent de faon alatoire dans le temps : appels tlphoniques sur un central, pannes de
machines, arrives un page dautoroute ou un guichet de vente, ou dans lespace :
rpartition de points au hasard sur une droite peuvent tre considrs comme raliss par
un processus de Poisson.
28
em m x
E (X ) = x
x!
x =0
En utilisant
em =
mx
E (X ) = m
x!
V (X ) = m
Remarque : On substitue en gnral une loi de Poisson une loi binomiale si lon a la fois :
n>50 et np<5.
IV.
Loi normale
On parle de loi normale ou loi de Laplace Gauss ou loi de Gauss ou encore deuxime loi de
Laplace, lorsquon a affaire une variable alatoire continue dpendant dun grand nombre de
causes indpendantes, dont les effets sadditionnent et dont aucune nest prpondrante
(conditions de Borel).
Exemple : les dimensions de pices fabriques dpendent du rglage de lappareil de
fabrication, des vibrations auxquelles il est soumis, de lhomognit de la matire premire,
de la temprature, de lhumidit Lorsque tous ces facteurs sont indpendants et quaucun
nest prpondrant, on peut supposer que les dimensions suivent une loi normale .
Une variable alatoire continue X est distribue selon une loi normale si sa densit de
probabilit est
( xm )
1
f ( x) =
e
2
, x
la loi de probabilit dpend de deux paramtres : m et ; on la note N(m , ).

On a lhabitude deffectuer le changement de variable :
T
La loi de distribution de T est alors :
f (t) =
t2
1
e 2
2
note N(0,1). Cette loi est dnomme loi normale centre rduite.
Remarque : f est une fonction paire.
Voici les caractristiques dune variable alatoire X distribue selon N(0,1) :
29
En utilisant lintgrale de Gauss :

+
t2
2
dt =
On dmontre que : E(X)=0, (X)=1.

Sa forme est :
Remarque : La valeur m dtermine laxe de symtrie de la courbe.
Pour une loi N(m,), E(X)= m = mdiane = mode

Ecart-type =
Remarque : Du fait de la multiplicit des facteurs qui interviennent dans de nombreux
phnomnes physiologiques, gntiques, co ou thologiques, le loi normale est fondamentale
en biologie.
V.
Loi du 2 de Pearson
Dfinition : tant donnes variables alatoires normales centres, rduites et indpendantes

Xi, la somme :
2 =
2
i
i =1
suit une loi du 2 , dite degrs de libert.

On calcule sa moyenne et sa variance :
E ( 2 ) = et V ( 2 ) = 2
30
La distribution du 2 tend devenir symtrique quand n augmente, on peut lassimiler la

distribution normale pour >30.
Importante en biologie : comparaisons (moyenne, variance), calcul des intervalles de
confiance, tests de conformit, dindpendance de deux caractres.
VI.
Loi de Student
Soient X et Z deux variables alatoires indpendantes. Z suit une loi du 2 degrs de

libert et X une loi N(0,1). La variable alatoire
T =
X
Z
suit une loi de Student (ou loi de Student-Fisher) degrs de libert.

On calcule sa moyenne et sa variance pour >2 :
E (T ) = 0
et
V (T ) =
Il existe des tables de la loi de Student qui donnent t tel que :
Utilise pour les comparaisons de paramtres (moyenne), estimation des paramtres dune
population partir dun chantillon.
31
VII.
Loi de Fisher-Snedecor
Si X12 et X22 sont un couple de variables alatoires indpendantes suivantes deux lois du 2
1 et 2 d.d.l. , alors :
2
X1
F=
X2
suit une loi F(1 , 2).

La loi de Fisher-Snedecor sapplique lors de la comparaison de variances exprimentales et
pour lanalyse de variance et covariance.
Sa fonction de densit est toujours positive :
32
33

Cours Ms Logistique Stat Descriptive

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cours Ms Logistique Stat Descriptive

Încărcat de

Drepturi de autor:

Formate disponibile

1re partie : STATISTIQUE DESCRIPTIVE

CHAPITRE 1 : COLLECTE DE LINFORMATION, TABLEAUX ET

La collecte des informations

Voici quelques gnralits :

Dpouillement des observations

Rgle de Sturge : nb. de classes = 1+ (3.3 log n)

Avec n = effectif de lchantillon.

Charge en grammes Effectifs

700 moins de 750

750 moins de 800

800 moins de 840

840 moins de 880

880 moins de 920

4.1. Cas de distributions quantitatives

effectif ou frquence amplitude lmentair e

Exemple : On a rcolt les donnes suivantes :

effectifs par classes

sans tenircompte de l'amplitude

en tenant compte de l'amplitude

4.2. Cas de distributions qualitatives

on peut raliser des diagrammes bandes

CHAPITRE 2 : ETUDE DES SERIES STATISTIQUES SIMPLES.

2.1. Cas de donnes numres

2.2. Cas dune variable discrte

On a lhabitude de rsumer cette criture en employant le signe :

2.3. Variable continue et donnes groupes.

effectifs centre de classe

Le mode ou la classe modale

Effectifs ou frquences cumuls.

5.1. Variable continue

effectifs centre de classe

5.2. Variable discrte

La mdiane est la valeur de la variable qui correspond la frquence cumule 50% ou

effectifs cumuls "moins de"

VIII. Caractristiques de dispersion

Ecart absolu moyen

On calcule dabord lcart la moyenne. Pour chaque valeur de la variable x, on calcule

Ou, si les observations sont rparties par classes :

Pour la premire srie observe on a :

Cette caractristique rend convenablement compte de la diffrence de dispersion entre les

En reprenant les sries du 7, on a pour la premire :

2500 + 625 + 625 + 2500 6250

10.2. Mthode de calcul

On exprime souvent ce thorme partir de la formule de la variance qui sen dduit :

effectifs centre de classe

10.5. Coefficient de variation

Remarque : ce coefficient cesse dtre efficace pour x petit.

Exemple : (rupture en charges ) le coefficient de variation de la srie tudie ci-dessus est :

Caractristiques de position : quartiles, dciles, centiles

pour des quartiles, le 2me quartile est la mdiane,

On les appelle caractristiques de position, puisquelle permettent de placer les valeurs de la

De mme on peut trouver pour le 3me quartile : (Q3,75)

- Cas dune variable discrte

Caractristiques de dispersion : tendue, carts interdciles, carts interquartiles

Les caractristiques de position dfinies au X suggrent une manire de caractriser la

XIII. Quelques conseils pour ltude de sries statistiques simples

CHAPITRE 3 : ETUDE DES SERIES STATISTIQUES DOUBLES

Notations et reprsentation des sries statistiques doubles

Tableau 2 : Notation des tableaux carrs

La dernire ligne et la dernire colonne du tableau reprsentent les distributions marginales,

Ajustement linaire. Principe de la mthode des moindres carrs

Les donnes du tableau 1 peuvent tre reprsentes graphiquement :

nb. d'units de consommation

Sur lexemple du tableau 1, calculons le coefficient de corrlation linaire.