Documente Academic
Documente Profesional
Documente Cultură
Dfinition et vocabulaire
Dfinition : la statistique est une mthode scientifique qui consiste runir des donnes
chiffres sur des ensembles nombreux, puis analyser, commenter et critiquer ces
donnes.
Cette science na pas pour objet la connaissance des lments des ensembles dans ce
qui fait leur individualit, mais au contraire dans ce quils ont en commun : il sagit dobtenir
des rsultats globaux. Ainsi, une enqute statistique portant sur des personnes na pas besoin
de faire intervenir leurs noms, mais seulement les renseignements que lon dsire tudier : elle
permet de connatre la rpartition de ces personnes par ge, par sexe, groupe sanguin
Comme toute science, la statistique fait appel un vocabulaire spcialis :
-
Les ensembles sont appels populations. Comme un ensemble, une population statistique
doit tre clairement dfinie.
Les lments de la population sont appels individus ou units statistiques, (que ce soient
des hommes ou des automobiles).
La population est tudie selon un ou plusieurs caractres.
Un caractre permet de dterminer une partition de la population selon diverses modalits.
Ainsi le sexe est un caractre deux modalits : masculin et fminin.
Lorsque les modalits du caractre sont des nombres, le caractre est dit quantitatif ; on
lui donne souvent le nom de variable statistique. Une variable statistique peut tre discrte
si elle ne prend que des valeurs isoles ou continue si elle peut prendre nimporte quelle
valeur intermdiaire entre deux valeurs donnes.
Lorsque les modalits du caractre ne sont pas mesurables, le caractre est dit qualitatif.
Les modalits dun caractre qualitatif peuvent faire lobjet dune nomenclature ou
numration ; la nomenclature doit en principe tre courte (une dizaine pour une tude
statistique simple). Mais les exigences de ltude sont parfois telles que la nomenclature
occupe des volumes entiers : cest le cas de nomenclatures codes des catgories
socioprofessionnelles et des professions faites par lI.N.S.E.E.
Exemples : Pour des chmeurs, lge est un caractre quantitatif continu ; le nombre
denfants est un caractre quantitatif discret. Pour des automobiles, la couleur est un caractre
qualitatif.
II.
Le premier objet de la mthode statistique est de runir les informations avant de les traiter.
III.
Lorsque les observations sont obtenues, elles doivent tre classes et exploites. Auparavant
une critique des rponses doit tre faite afin dliminer les contradictions et les
invraisemblances. Pour chaque caractre tudier, on dfinit un certain nombre de classes
selon les modalits, puis on fait le tri des observations, cest dire une rpartition par classes.
Ces oprations peuvent tre faites la main ou laide dun ordinateur. Le document
denqute doit tre au moins partiellement cod pour viter la surcharge des mmoires.
IV Tableaux statistiques
On peut reprsenter les donnes brutes dune tude dans un tableau. Mais il est possible den
dduire un tableau plus clair, en faisant un regroupement par classes. On choisit les classes
pas trop nombreuses, mais suffisamment pour quil ny ait pas de perte dinformation. Il
importe que les classes recouvrent tous les rsultats et aient une intersection vide, do les
formulations du type de moins de ; la diffrence entre les deux extrmits est
appel amplitude de la classe.
On peut fixer le nombre de classes selon lun des deux formules suivantes :
i)
ii)
Rgle de Yule :
nb. de classes = 2.54 n
Leffectif dune classe est le nombre dlments de la population observs dans cette classe.
La frquence est le rapport de cet effectif leffectif total de la population. La frquence est
exprime en pourcentage.
Exemple 1: On sintresse la charge de rupture dun fil en grammes.
711
915
853
789
941
890
763
892
914
889
862
873
700
790
909
925
805
893
794
791
851
926
885
753
784
895
796
915
931
782
912
864
857
910
882
768
759
890
701
713
922
800
844
847
859
869
916
888
772
724
791
931
907
784
903
892
853
865
935
868
825
722
917
936
925
895
789
909
887
842
935
774
786
706
704
912
942
931
880
892
895
903
820
758
792
850
712
710
933
905
758
925
930
887
888
920
764
798
905
792
8462
8633
8499
8160
8587
8816
8099
8691
8652
8198
84797
On va regrouper ces donnes en classes. Nous avons un effectif de 100 ce qui nous donne en
nombre de classes daprs les rgles de Sturge et de Yule : 7 classes. En fait dans lexemple
ils en prennent 6.
IV.
Frquences
10
0,1
23
0,23
0,04
15
0,15
32
0,32
920 et plus
16
0,16
TOTAL
100
Graphiques
dans le cas dune variable discrte, le graphique est un diagramme btons, ainsi
apparat la discontinuit entre deux valeurs.
dans le cas dune variable continue, le graphique est un histogramme. La surface
limite par lhistogramme doit tre proportionnelle leffectif ou la frquence. Il
convient de prendre garde lamplitude des classes (on se ramne la plus petite
amplitude, amplitude lmentaire, et on divise la hauteur du rectangle par la mesure de
lamplitude de la classe par rapport cette amplitude lmentaire).
hauteur du rectangle =
charges en g. (classes)
700 moins de 750
750 moins de 800
800-840
840-880
880-920
effectifs
amplitude
hauteur du rectangle
50 (10*40)/50=8
50 (23*40)/50=18,4
40
4
40
15
40
32
10
23
4
15
32
15
10
5
0
1
Introduction
Un tableau statistique ou un graphique sont parfois long consulter, sans permettre davoir
une ide suffisamment concise de la distribution statistique observe. On cherche alors
rsumer celle-ci par une caractristique de tendance centrale, cest dire par un seul nombre
destin caractriser lensemble dune faon objective et impersonnelle, comme par exemple
la moyenne arithmtique, la mdiane ou le mode.
II.
La moyenne arithmtique
La moyenne arithmtique dune srie de valeurs dune variable statistique est gale la
somme de ces valeurs divise par leur nombre.
x=
x1 + x2 + ...+ xn
n
x=
n1 x1 + n2 x2 + ...+ nt xt f1 x1 + f2 x2 + ...+ ft xt
=
n1 + n2 + ...+ nt
f1 + f2 + ...+ ft
x =
n ix
i =1
i =1
fix
i =1
t
fi
i =1
classe . Le calcul est effectu comme si tous les individus dune classe avaient pour caractre
le centre de classe, avec toute la part dapproximation que cela comporte.
Exemple : Lors dune tude sur la rsistance dun mtal, on a ralis 100 expriences de
rupture en charge dun fil de mme paisseur et lon a not les poids limites dans chaque cas.
Le tableau ci-dessous reprsente la rpartition par classes des rsultats.
On calcule la moyenne de la charge de rupture dun fil, partir des effectifs.
Tableau 1
charge en grammes
700
750
725
7250
23
775
17825
820
3280
15
860
12900
32
900
28800
16
940
15040
800
840
880
920
nixi
960
TOTAL
x =
nx
n
i
85095
100
100
85095
= 850 , 95 851 g.
Remarque : si on avait fait le calcul sur les donnes brutes on aurait trouv : 848g. Cette perte
de prcision est due au regroupement des donnes en classes, et au choix des centres de
classes comme moyenne de la classe, do perte dinformation.
III.
Le mode ou valeur modale est la valeur que la variable statistique prend le plus frquemment.
-
Dans le cas dune variable discrte, le mode peut tre trouv immdiatement, au vu du
tableau des frquences ou des effectifs.
Si la variable est continue, et si les donnes sont groupes en classes, on parle plutt de
classe modale : la classe ayant leffectif le plus lev (effectif ramen lunit
damplitude). Attention il peut arriver que la classe modale ne soit pas celle o leffectif
apparat, sur le tableau, le plus lev. En effet, cette dernire classe peut avoir une
amplitude plus grande quune autre dont leffectif par unit damplitude, est plus lev.
Sur lexemple prcdent, si la classe 700 moins de 800 figurait, son effectif serait 33,
suprieur celui retenu pour la classe modale. Mais ramen lunit damplitude 40,
leffectif ne serait plus que : 33*40/100=13.2. La rpartition des charges de rupture dun
fil a pour classe modale la classe 880 moins de 920 , deffectif 32.
IV.
La mdiane
La mdiane dune srie statistique est une valeur de la variable telle quil y ait autant
dobservations ayant une valeur suprieure la mdiane que dobservations ayant une valeur
infrieure la mdiane.
Exemple : si nous considrons les cinq valeurs suivantes : 711 862 851 912 922.
Ces valeurs peuvent tre ranges selon les grandeurs croissantes : 711 851 862 912 922.
La valeur 862 est telle que deux observations ont une valeur infrieure et deux autres une
valeur suprieure : cest la mdiane.
Lorsque les observations sont toutes donnes, il suffit donc de les classer par ordre de
grandeurs croissantes (ou dcroissantes), et de prendre celle qui se trouve au milieu. Si le
nombre des observations est pair, la mdiane peut tre thoriquement lune quelconque des
valeurs comprises entre les deux valeurs centrales observes ; le plus souvent on choisit leur
demi-somme.
Si par contre les observations sont regroupes en classes , il est ncessaire de recourir aux
effectifs ou aux frquences- cumuls.
V.
Il est souvent intressant, devant une srie statistique, de pouvoir dire il y a tant
dobservations ou il y a tel pourcentage dobservations infrieures telle valeur (ou
suprieures). Cest ce genre de proccupation que rpond le calcul des frquences ou des
effectifs cumuls.
Tableau 2
charge en grammes
700
750
800
840
880
920
nixi
10
725
7250
23
775
17825
820
3280
15
860
12900
32
900
28800
16
940
15040
effectifs cumuls
"- de"
0
"+ de"
100
10
90
33
67
37
63
52
48
84
16
100
960
100
TOTAL
85095
Effectifs cumules
100
80
60
"+ de"
40
"- de"
20
0
600
700
800
900
1000
charge en g.
VI.
Calcul de la mdiane
840
880
37
52
55
50
45
40
35
30
25
20
830
840
850
860
870
880
890
Le point de coordonnes (M,50) est sur la droite passant par les points A et B.
Trouvons lquation de cette droite : y=ax+b.
A(840,37)
x=
et B(880,52)
37 = 840 a + b
15 = 40 a a = 3 8
b = 278
52 = 880 a + b
yb
50 + 278
M=
874,67 875 g.
3
a
8
Remarque : Cette valeur peut tre lue sur le graphique des effectifs cumuls ; cest la valeur
de la variable correspondant leffectif 50 ; on lit environ 875g.
VII.
Etendue.
Ltendue est la diffrence entre la valeur maximale et la valeur minimale dune srie.
10
IX.
(x x) = nx + x
i
i =1
= nx + nx = 0
i =1
Cependant, la simple vue des deux lignes dcart calcules ci-dessus montre que ceux-ci
caractrisent convenablement la dispersion. On a alors recours la moyenne des valeurs
absolues des carts, cest lcart absolu moyen :
e =
xi x
n
xi x
n
e1 =
16
= 3, 2
5
Et pour la deuxime :
e2 =
150
= 30
5
X.
Ecart-type
10.1. Dfinition
La caractristique de dispersion la plus usuelle est en effet lcart-type. Puisque la moyenne
arithmtique des carts la moyenne est nulle, on a recours la moyenne quadratique de ces
carts. On dfinit :
11
la variance dune srie : cest une moyenne arithmtique des carrs des carts la
moyenne :
V =
n (x x)
n
i
Lcart type dune srie : cest la moyenne quadratique des carts la moyenne, autrement
dit, cest la racine carre de la variance.
V =
(x i x)2
v1 =
25 + 9 + 25 + 9
= 13,6 et 1 = 3,69
5
Et pour la deuxime :
v2 =
S = ni (xi x)2
= n i x i 2ni xi x + ni x 2
2
n i x i + nx 2
n i x i 2x
123
2
nx
car
nixi
x=
= ni xi nx2
2
n x
V(X) =
i
2
i
(x) 2
12
La variance est gale la moyenne des carrs moins le carr de la moyenne. Ce rsultat
simplifie considrablement les calculs ncessaires pour obtenir la variance et lcart-type ;
cest sous cette forme que le thorme de Koenig est utilis ds quon dispose dune machine
calculer.
Remarque : cette dernire formulation de la variance limite les erreurs darrondis car la
moyenne nintervient quune seule fois alors que dans la formulation prcdente elle
intervient i fois.
10.3. Exemples
Il est possible de calculer la variance et lcart type sur lexemple du 2.
Pour la rupture en charge des fils, sur les donnes groupes du tableau 1. On utilise la
formule :
n x
V(X) =
i
2
i
(x) 2
Tableau 3
charge en grammes
700
750
800
840
880
920
nixi
nixi2
10
725
7250
5256250
23
775
17825
13814375
820
3280
2689600
15
860
12900
11094000
32
900
28800
25920000
16
940
15040
14137600
85095
72911825
960
100
TOTAL
n x
V(X) =
n
i
2
i
(x)2 =
72911825
(850,95) 2 = 5002,35
100
= 5002,35 = 70,73 g.
10.4. Signification de lcart type
Remarque : Il existe une autre quantit reprsentante de la dispersion dune srie, cest
ltendue :
tendue = valeur maximale valeur minimale.
13
Lorsque lon compare deux sries de mme nature, celle qui a lcart type le plus lev est la
plus disperse.
Cependant, par rfrence une loi statistique usuelle, la loi normale, il est possible de
prciser un peu la signification de lcart type. Lorsquune srie statistique satisfait la loi
normale, 95% des observations sont comprises entre x 2 et x + 2 : plus lcart type est
lev, plus les observations sont disperses. Si la srie statistique tudie, sans suivre une loi
normale, nest pas trop dissymtrique, la mme proprit est approximativement vraie.
On dduit de la proprit nonce ci-dessus dans le cas de la loi normale, la rgle de
vrification suivante : ltendue dune srie statistique (diffrence entre observation la plus
leve et la plus basse) est du mme ordre de grandeur que quatre cart-types.
Par exemple : pour la rupture en charge de fils, ltendue est certainement infrieure
960-700=260g (en effet 960 et 700 sont des extrmits de classes dont on sait par les donnes
brutes quelles ne sont pas toutes deux atteintes) et 4=283g : les deux nombres ne sont pas
gaux mais ils sont du mme ordre de grandeur.
100
x
La srie de poids apparat peu disperse, parce que toutes les observations sont
relativement voisines de la moyenne.
XI.
14
Les quartiles, dciles et centiles sont des caractristiques qui correspondent au mme genre de
proccupation que la mdiane.
Il sagit des valeurs de la variable qui correspondent aux effectifs cumuls :
n/4, 2n/4, 3n/4
n/10, 2n/10,9n/10
n/100, 2n/100,99n/100
750
Q1
800
10
25
33
10 = 750a + b
23
23
23 = 50a a =
et b = 10 750 = 335
50
50
33 = 800a + b
Ce qui donne :
25 = Q1
23
50
335 Q1 = (25 + 335)
= 782,61 783 g.
50
23
Q 3 = 908,75g 909 g.
On calculerait de la mme manire les dciles. Pour le 1er et le 9me dcile, on obtient :
D1=750 g et D9=935 g.
XII.
15
On peut faire les mmes calculs pour une variable discrte. Les rsultats sont sensiblement
moins intressants. En effet, il est frquent que des quartiles ou des dciles soient gaux la
mdiane.
moyenne, cart-type .. raliser partir des centres de classes et des effectifs de classes.
mdiane, quartiles, intervalles interquartiles .. raliser partir des extrmits de classes
et des effectifs cumuls.
16
Position du problme
Dans les chapitres prcdents on tudiait une population selon un seul caractre. Cependant il
est souvent utile de considrer la fois plusieurs caractres de la mme population : taille,
ge, poids dun groupe denfants ; qualification et salaire de salaris ; temprature et pression
dun milieu diffrentes heures
Nous nous limiterons ici ltude simultane de deux caractres ; lanalyse des donnes
permet den tudier un grand nombre.
II.
Une srie statistique double peut tre donne comme lnumration dun certain nombre de
rsultats. La tableau ci-dessous donne la consommation en milliers de calories de douze
familles en moyenne par jour. Chaque homme adulte est compt pour une unit de
consommation ; un enfant est compt pour une part dunit, dpendant de son ge et de son
sexe.
Tableau 1
n de
unit de
consommation
xi
1
5,3
2
7,2
3
5,6
4
7,1
5
5
6
3,3
7
5,2
8
4,5
9
4
10
2
11
5,7
12
4,7
TOTAL
59,6
famille
calories
par jour
yi
13
18
9,4
15,4
7,8
9,3
10,1
7,1
8,9
4,4
12,1
11,5
127
On peut avoir des donnes groupes : on parle alors de tableaux carrs ou de tableaux
double entre. Il est alors ncessaire demployer des notations prcises.
Soient x et y deux caractres (quantitatifs ou non). Les classes du caractre x sont dsignes
par les indices 1,,j,.,p, celles du caractre y par 1,,i,,q.
nij est le nombre dunits reprsentant la modalit yi de y et la modalit xj de x.
Les sommes des effectifs de la ligne i, de la colonne j et de lensemble sont nots
respectivement :
17
n
j=1
ij
= n i. , n . j = n .j , n ij = n ..
i =1
j=1 i =1
caractre y
caractre x
xj
x1
x2
y1
n11
n12
n1j
y2
:
:
yi
:
:
yq
n21
n22
:
:
:
:
nq1
:
:
:
n2j
:
:
nij
total
n.1
n.2
n.j
xp
..
n1p
total
n1.
nqp
n2.
:
:
ni.
:
:
nq.
n.p
n..
III.
18
20
nb. de calories par jour
18
16
14
12
10
8
6
4
2
0
0
On constate sur la figure ci-dessus que les points reprsentatifs de la srie des consommations
ne sont pas rigoureusement aligns, mais quils forment un nuage de points allong.
Il nest pas alors dpourvu de sens de chercher si lon peut trouver une droite qui rsume
approximativement lensemble des points. La recherche dune telle droite est un ajustement
linaire.
3.1. Ajustement graphique
Thoriquement, diverses sortes dajustement linaires sont possibles. La plus simple est
lajustement graphique, ralis par le dessinateur. Linconvnient majeur de lajustement
graphique est quil est subjectif.
3.2. Autres ajustements
Dautres ajustements peuvent tre raliss de faon plus objective, par exemple en utilisant les
points extrmes ou les moyennes de certains groupes de rsultats. Lorsquil sagit de sries
chronologiques, il est usuel de raliser un ajustement linaire par de telles mthodes.
3.3. Mthode des moindres carrs
La mthode des moindres carrs prsente un caractre plus rigoureux que les prcdentes.
Elle consiste rechercher une droite telle que la somme de ses distances aux diffrents points
reprsentant les donnes soit minimale. Le mot distance est pris au sens large. La distance
choisie est le carr de la diffrence des ordonnes entre chaque point et le point de la droite
ayant mme abscisse.
3.4. Notion de corrlation linaire
La mthode des moindres carrs peut tre utilise pour nimporte quelle srie double. Quelle
que soit cette srie, il existe une droite destimation par la mthode des moindres carrs. Pour
sassurer de faon objective que lajustement est valable, on calcule le coefficient de
corrlation linaire :
r =
cov( x , y )
x y
19
Ce coefficient est compris entre 1 et +1. Sil est voisin en valeur absolu de 1, lajustement
est valide (0.70 < | r | < 1). La covariance joue un rle analogue la variance dans les sries
statistiques simples, elle est dfinie par :
1
1
cov(x, y) = ( xi x)( yi y) = xi yi x y
n
n
Remarque : si on fait x=y, on retrouve la formule de la variance.
n de
famille
unit de
calories
consommation
par jour
xi
5,3
7,2
5,6
7,1
5
3,3
5,2
4,5
4
2
5,7
4,7
59,6
yi
13
18
9,4
15,4
7,8
9,3
10,1
7,1
8,9
4,4
12,1
11,5
127
1
2
3
4
5
6
7
8
9
10
11
12
TOTAL
xi2
28,09
51,84
31,36
50,41
25
10,89
27,04
20,25
16
4
32,49
22,09
319,46
yi2
169
324
88,36
237,16
60,84
86,49
102,01
50,41
79,21
19,36
146,41
132,25
1495,5
xiyi
68,9
129,6
52,64
109,34
39
30,69
52,52
31,95
35,6
8,8
68,97
54,05
682,06
59,6
= 4,97 5 units de consommation
12
127
y=
= 10.58 10,6.10 3 calories.
12
1
319 , 46
2
V (x ) = x i x 2 =
( 4,97 ) 2 = 1,95
n
12
x = 1.4 units de consommati on
x=
V (y) =
1
n
1495 . 5
(10 . 58 ) 2 = 12 . 62
12
y = 3 , 55 . 10 3 calories
yi y2 =
20
1
682 .06
4 .97 10 .58 = 4 .26
xi yi x y =
n
12
cov( x , y ) =
r =
cov( x , y )
4 . 26
=
= 0 . 86
x y
1 . 4 355
Sans indiquer une bonne corrlation (il faudrait quil soit suprieur 0.95), ce coefficient
autorise lajustement linaire.
IV.
y = ax + b
On recherche les paramtres a et b. La diffrence des ordonnes entre un point(xi,yi) et le
point de la droite ayant mme abscisse est :
yi yi = yi axi b
La somme des carrs de ces diffrences doit tre minimum :
S=
(y
ax i b) 2 minimum
i =1
b = y ax
a =
( x i x )( y i y )
(x i x )2
xy
x
i
nxy
nx 2
21
cov( x , y )
V (x )
a =
La forme du coefficient b permet de constater que la droite dajustement passe par le point
moyen (x,y). Son quation est :
y = y + a ( x x )
4.2. Application lexemple du tableau 3 :
a=
4 .26
= 2 .18
1 .95
y = ax + b = ax + y ax = y + a ( x x )
y1 = 10.6 + 2.2( x 5) droite d' estimation de y en x.
4.3. Droite destimation de x en y
x = x + a(y y) avec a =
cov(x, y) 4.26
=
= 0.34
V(y)
12.62
30
25
20
15
10
5
0
0
22
10
12
Les deux droites destimation trouves sont diffrentes. Le carr du coefficient de corrlation
linaire est prcisment gal au produit des pentes.
2
cov( x , y )
cov( x , y ) 2
= r2
aa =
=
V ( x ) V ( y ) x y
r 2 = aa = 0.86 2 = 0.75
Si les deux droites taient identiques, r serait en valeur absolue gal 1. Si les droites sont
proches, | r | est voisin de 1. Par contre si | r | est voisin de 0, les deux pentes sont loin dtre
inverse lune de lautre, et par consquent les droites dajustement sont sensiblement
diffrentes : les points reprsentatifs sont loin dtre rellement aligns.
V.
5.1. Mthode
80
70
1
20
90
2
100
3
110
4
25
13
29
24
12
12
21
12
10
47
48
75
n.jxj
n.jxj2
nijyi
x vitesse (km/h)
ni.
yi
120
5
ni.yi
ni.yi2
nijxj
xy
yi
75
5625
2300 76,67
80500
25
75
1875
225
30
35
1050
36750
78
50
3900 195000
56
70
3920 274400
16
33
90
2970 267300
55
40
10
200
85
95
105
115
3525
4080
5225
4200
1150
264375
346800
496375
441000
2020
2645
3570
2880
800
72
80
302400
92000
30
y distance (m)
40
60
80
100
n.j
xj
yx
xj
224825
339150
1109875
18180
132250 1680800
11915
1109875
Les colonnes ni.yi, ni.yi2 et les lignes n.jxj et n.jxj2 permettent de calculer les caractristiques
des deux distributions marginales.
23
11915
= 59.58 m
200
775325
V(y) =
(59.58)2 = 327.44
200
y = 18.1 m
y=
18180
x=
= 90 .9 km / h
200
1680800
V(x ) =
(90 .9 ) 2 = 141 .19
200
x = 11 .9 km/h
n ij x
Il est possible de calculer xy, cest dire la moyenne (conditionnelle) de x pour un y donn
(plus exactement, pour y compris entre les limites de classes).
Ainsi pour y compris entre 30 et 40 m. (ligne 2) :
xy =
2j
xj
=
2j
2300
= 76.67 km/h.
30
n y
=
n
i4
yx
= 72 m.
i4
24
Figure 2
100
distance en m
90
courbe de rgressionde y en
x
courbe de rgressionde x en
y
80
70
60
50
40
Linaire (courbe de
rgressionde x en y)
Linaire (courbe de
rgressionde y en x)
30
20
70
80
90
100
110
120
130
vitesse en km/h
On peut constater que les deux courbes de rgression sont sensiblement diffrentes de droites.
Il est possible en effet de vrifier que le coefficient de corrlation linaire entre x et y est assez
mauvais. Pour obtenir la covariance on calcule :
y n
i
ij
xj =
x n
j
cov( x , y ) =
1109875
200
ij
yi =
ij
x jy i
( 90 . 9 )( 59 . 58 ) = 133 . 55
r=
133 .55
= 0 .62
18 . 1 11 . 9
Ce coefficient est presque gal 0.60, ce qui est faible. Lajustement linaire ne reprsente
pas un bon rsum des observations. Puisquil est toujours possible de calculer les droites des
moindres carrs, nous allons vrifier que lajustement linaire est mauvais en calculant les
quations de ces droites.
a =
cov( x , y )
133 . 55
=
= 0 . 95
V (x )
141 . 19
25
Do lquation :
y 1 = y + a ( x x ) = 59 . 58 + 0 . 95 ( x 90 . 9 )
Pour la droite destimation de x en y :
a =
cov( x , y )
133 . 55
=
V (y)
327 . 44
= 0 . 41
x = x + a ( y y ) y =
x x
+ y y 2 = 59 . 58 + 2 . 44 ( x 90 . 9 )
a
Ces deux droites, traces sur la figure 2, sont diffrentes ; par contre, elles ne sont pas trs
loignes chacune de la courbe de rgression correspondante. Ce rsultat explique la
frquente confusion entre courbe de rgression et droite dajustement par la mthode des
moindres carrs .
VI.
Il peut arriver que les points reprsentant une srie double ne soient pas aligns, mais soient
voisins dune courbe connue. On se sert alors en gnral de la mthode des moindres carrs,
mais en transformant au pralable lune des variables. Ainsi, un ajustement entre y et xn donne
un ajustement de la forme y = a xn + b ; un ajustement entre y et ln x donne :
y =b eax.
Relations usuelles :
y = a exp( bx )
y = ax b
y = a + b log x
y = cx a + dx b
y = a 0 + a 1 x + a 2 x 2 (parabole)
y = ab x (gomtriq ue)
y = ca bx (Gompertz)
y = abx b -1 exp( ax b ) (Weibull)
Il est galement possible de raliser des ajustements linaires ou non, plusieurs variables,
toujours sur le principe de la mthode des moindres carrs.
26
VII.
Faire dabord une tude graphique. On distinguera ainsi si un ajustement, linaire ou non
peut se justifier.
Calculer le coef. de corrlation avant deffectuer lajustement, si ce coef est trop faible en
valeur absolue, ne pas continuer les calculs (chercher un ajustement non linaire)
27
Loi binomiale
V ( X ) = n ( p p 2 ) = np (1 p ) = npq et =
npq
II.
Loi hypergomtrique
E ( X ) = np
et
V ( X ) = npq
N n
N 1
Si N est grand par rapport n et si p nest pas trop voisin de 0 ou de 1, il est possible de faire
une approximation de la loi hypergomtrique par la loi binomiale.
III.
Loi de Poisson
28
em m x
E (X ) = x
x!
x =0
En utilisant
em =
mx
E (X ) = m
x!
V (X ) = m
Remarque : On substitue en gnral une loi de Poisson une loi binomiale si lon a la fois :
n>50 et np<5.
IV.
Loi normale
On parle de loi normale ou loi de Laplace Gauss ou loi de Gauss ou encore deuxime loi de
Laplace, lorsquon a affaire une variable alatoire continue dpendant dun grand nombre de
causes indpendantes, dont les effets sadditionnent et dont aucune nest prpondrante
(conditions de Borel).
Exemple : les dimensions de pices fabriques dpendent du rglage de lappareil de
fabrication, des vibrations auxquelles il est soumis, de lhomognit de la matire premire,
de la temprature, de lhumidit Lorsque tous ces facteurs sont indpendants et quaucun
nest prpondrant, on peut supposer que les dimensions suivent une loi normale .
Une variable alatoire continue X est distribue selon une loi normale si sa densit de
probabilit est
( xm )
1
f ( x) =
e
2
, x
f (t) =
t2
1
e 2
2
note N(0,1). Cette loi est dnomme loi normale centre rduite.
Remarque : f est une fonction paire.
29
t2
2
dt =
Loi du 2 de Pearson
2
i
i =1
E ( 2 ) = et V ( 2 ) = 2
30
VI.
Loi de Student
X
Z
E (T ) = 0
et
V (T ) =
Utilise pour les comparaisons de paramtres (moyenne), estimation des paramtres dune
population partir dun chantillon.
31
VII.
Loi de Fisher-Snedecor
Si X12 et X22 sont un couple de variables alatoires indpendantes suivantes deux lois du 2
1 et 2 d.d.l. , alors :
2
X1
F=
X2
32
33