Sunteți pe pagina 1din 22

Facultad de Educacin Elemental y Especial Universidad Nacional de Cuyo

Curso Estadstica y Probabilidades finitas. Mdulo 1 B.V Seccin Documentos










Seccin Documentos

















Pierre Boussy
Universit de Lyon 1
France
2000




Distributions statistiques


DOCUMENTO DE APOYO

CHAPITRE 1

DISTRIBUTIONS STATISTIQUES



Introduction

La science statistique nous offre des principes et des outils pour extraire les
meilleures dcisions possibles en analysant les donnes relles. Le paradigme de la science
statistique se rsume dans le triangle suivant :



Collecte et analyse
des donnes


Modlisation (thorique)
statistique

Infrences statistiques

Figure 1.1



Les deux citations suivantes rsument l'importance de la science statistique dans
notre socit contemporaine :

"La science statistique est l'aspect particulier du progrs humain qui a donn au 20 sicle
son caractre distinctif".
R.A.Fisher (1952)

"Dans un avenir rapproch, pour tre un citoyen effectif, il sera aussi important de savoir
raisonner statistiquement que de savoir lire et crire".
H.G. Wells (1866-1946)


Pour un fonctionnement adquat, un tat a besoin d'informations sur les secteurs de
l'conomie (informations dmographiques et gographiques) ainsi que sur les ressources
(main-duvre, agriculture, forts, minraux, eau, etc.). Si les ressources sont limites par
rapport aux besoins et aux demandes, une planification et une allocation optimale deviennent
ncessaires. Par exemple, une planification optimale de notre vie sociale exige des donnes
sur les naissances, la mortalit, les maladies, l'ducation etc. Une planification optimale de
production industrielle ncessite des donnes sur les cots, l'approvisionnement, la
consommation, les prfrences (attitudes et opinions), etc.

1. Les donnes statistiques

Toute tude (ou enqute) statistique pour recueillir des informations (i.e. des donnes
quantitatives et qualitatives), s'adresse un ensemble bien dfini (appel population) d'tres
ou d'objets, appels units statistiques.


Les donnes statistiques, compte tenu de l'objectif de l'tude en question, sont des
observations sur un certain nombre de caractristiques observables (ou mesurables). De
telles caractristiques sont appeles des variables. Voici quelques exemples.

Exemple 1.1 :

Population : l'ensemble des entreprises enregistres dans un pays
Unit statistique : une entreprise
Variable : le chiffre d'affaires

Exemple 1.2 :

Population : l'ensemble des transactions d'une entreprise pour un exercice financier
Unit statistique : une transaction
Variable : la qualification de la transaction (valeur : 0 si la transaction est
correcte, 1 sinon)

Exemple 1.3 :

Population : l'ensemble des personnes travaillant leur compte
Unit statistique : une personne travaillant son compte
Variable : le revenu hebdomadaire

Exemple 1.4 :

Population : l'ensemble des units stockes dans un entrept
Unit statistique : une unit
Variable : la dure de stockage

Une enqute statistique dans laquelle on recueille les donnes sur chacune des
units statistiques de la population est appele un recensement. Une enqute statistique
dans laquelle on recueille les donnes sur une partie des units statistiques de la population
est appele un chantillonnage ou sondage.

2. La synthse des donnes statistiques : le tableau de
distribution

A la suite d'une tude statistique (recensement ou chantillonnage), portant sur un
ensemble de variables, ce que nous avons est un fichier d'information du genre :


Identification de l'unit
Statistique

Variable X

Variable Y

Etc.
1
re
2
me

etc.

valeur
valeur
etc.

valeur
valeur
etc.

valeur
valeur
etc.


Tableau1.1

Souvent les objectifs des tudes statistiques sont tels que la question "quelles units
statistiques ont une telle valeur ?" n'est pas importante. Cependant, "combien d'units
statistiques ont telle valeur?" est une question pertinente. A cet gard les donnes d'une
enqute statistique sont rassembles, rsumes et prsentes sous forme de tableau appel
table de distribution statistique. Il indique de quelle manire se distribuent l'ensemble des
units statistiques dans les diffrentes classes de valeur ?



Pour bien comprendre la mthode de prsentation des donnes statistiques, il est
prfrable de diviser les variables en deux catgories :

les variables qualitatives
les variables quantitatives


Une variable est dite qualitative lorsque ses valeurs sont des qualits

Exemple 1.5 : variable : catgorie socio-professionnelle
valeurs possibles : employ, professionnel, cadre

Exemple 1.6 : variable : qualification de la transaction
valeurs possibles : correcte, incorrecte, douteuse

Exemple 1.7 : variable opinion sur l'indpendance
valeurs possibles : fortement pour, pour, indiffrent, contre, fortement contre.


Une variable est dite quantitative lorsque ses valeurs sont des quantits (i.e. des
nombres). Les variables quantitatives sont divises en deux catgories :

les variables quantitatives discrtes (nombres entiers)
les variables quantitatives continues


Les variables quantitatives discrtes sont des variables qui n'admettent comme
valeur que les nombres entiers.

Exemple 1.8 : unit statistique : entreprise
variable : nombre d'employs

Exemple 1.9 : unit statistique : employ
variable : nombre de jours d'absence par anne

Exemple 1.10 : unit statistique : client d'un cabinet comptable
variable : nombre de factures tablies par le client en une anne

Exemple 1.11 : unit statistique : facture
variable : nombre d'erreurs typographiques numriques

Exemple 1.12 : unit statistique : une page d'un texte
variable: nombre de fautes


Une variable quantitative continue est une variable qui peut admettre n'importe
quelle valeur l'intrieur d'un intervalle de valeurs possibles.

Remarque 1 : il se peut dans une tude statistique qu'une variable soit de nature
quantitative, mais qu'elle soit traite comme une variable qualitative. Exemple: Variable
revenu, ge, vieux/jeune etc.

Remarque 2 : une variable de nature quantitative continue peut tre traite comme une
variable quantitative discrte.

Les variables sont dsignes par des lettres majuscules X, Y, Z,...

Quelques exemples de tables de distribution statistique

Exemple 1.13 : X : qualit d'un produit

Distribution de X en effectifs

X : qualit Effectif
dfectueux
non dfectueux
32
48
Total 80

Tableau1.2a
Distribution de X en frquences

X : qualit Frquence
dfectueux
non dfectueux
.40 (40%)
.60 (60%)
Total 1 (100%)

Tableau 1.2b


Exemple 1.14 : Y : Type de voiture

Distribution deY (en effectifs)

Y: type de voiture Effectif
Honda
Volkswagen
Ford
20
15
45
Total 80

Tableau 1.3



3. Reprsentations graphiques dune distribution



dfectueux
40%
non dfectueux
60%


Figure 1.2 Graphe en secteur de la distribution de la variable qualit
du produit
Source : Tableau 1.2a

0
10
20
30
40
50
60
non dfectueux dfectueux
40%
60%


Figure 1.3 Diagramme en btons de la distribution de la variable qualit du produit
Source : Tableau 1.2b


0
5
10
15
20
25
30
35
40
45
50
Honda Volkswagen Ford
25%
19%
51%



Figure 1.4 Diagramme en btons de la distribution de la variable Y
Source : Tableau 1.3



4. Les variables quantitatives discrtes


Exemple 1.15: Voici une suite de 20 scores sur un test daptitude au travail (variable : score)
35, 15, 25, 35, 25, 45, 35, 45, 55, 65, 65, 55, 45, 35, 45, 25, 35, 25, 15, 35.

On peut rassembler ces donnes dans un tableau de distribution (des
effectifs ou des frquences).





X : score Effectif

X : score Frquence
15
25
35
45
55
65
2
4
6
4
2
2
Total 20

Tableau 1.4a
15
25
35
45
55
65
.1
.2
.3
.2
.1
.1
Total 1

Tableau .1.4b

0
10
20
30
40
50
60
70
80
90
1er
trim.
2e
trim.
3e
trim.
4e
trim.
Est
Ouest
Nord

0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
159
1
3
1
7
2
1
2
5
2
9
3
3
3
7
4
1
4
5
4
9
5
3
5
7
6
1
6
5
Scores
F
r

q
u
e
n
c
e
s


Figure 1.5 Diagramme en btons de la distribution de la variable score
Source: Tableau 1.4b


5. Les variables quantitatives continues

Exemple 1.16: Supposons que la distribution du temps gaspill par semaine durant les
heures de bureau est
la suivante:


Temps gapill
(en heures)
Effectif Frquence
0.5 X <1.0 3 0.0025
1.0 X <1.5 6 0.0050
1.5 X <2.0 15 0.0124
2.0 X <2.5 53 0.0438
2.5 X <3.0 219 0.1811
3.0 X <3.5 471 0.3896
3.5 X <4.0 334 0.2763
4.0 X <4.5 96 0.0794
4.5 X <5.0 11 0.0091
5.0 X <5.5 1 0.0008
Total 1209 1.0000

Tableau 1.5

0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
Temps gaspill (en heures)
F
r

q
u
e
n
c
e
s
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5


Figure1.6 Histogramme de la distribution du temps gaspill par semaine durant les heures de
bureau
Source : Tableau 1.5


Remarque 3 : sur chaque intervalle de classification, on construit un rectangle dont la
hauteur (ou la surface) dsigne la frquence de lintervalle en question (figure 1.6).



En rejoignant les points milieux des sommets des rectangles on obtient un graphique quon
appelle le polygone des frquences (figure1.7).

0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5 1 1,5 2 2,5 3 3,5 4 4,5 5
Temps gaspill (en heures)
F
r

q
u
e
n
c
e
s




Figure1.7 Polygone des frquences de la distribution du temps gaspill
Source : Tableau 1.5


Remarque 4 : un polygone des frquences met plus en vidences qu'un histogramme les
variations des frquences.

Remarque 5 : le polygone des frquences est utile pour la comparaison de deux
distributions. La figure 1.8
prsente la distribution des salaires pour deux sous populations : le femmes et les hommes.

0
0,1
0,2
0,3
0,4
18 22 26 30 34 38 42 46 50 54 58
Salaires en milliers de dollars
F
r

q
u
e
n
c
e
s
Femme
Homme


Figure1.8 Polygones des frquences de la distribution des salaires selon le sexe


6. Un test de la concordance d'une distribution observe avec
une
distribution thorique


Lorsqu'on prlve un chantillon, on peut se poser l'une des questions suivantes:

Est-ce que l'chantillon est reprsentatif de la population ?
La distribution chantillonnale est-elle conforme celle de la population ?
La divergence entre une distribution chantillonnale et une distribution thorique, (ou
espre, ou souhaite, ou imagine) est-elle significative ?


Exemple 1.17 : dans un chantillon, la distribution des produits par type (alimentaire, non
alimentaire) est la suivante: 847 produits alimentaires et 840 produits non alimentaires. Est-
ce que cette distribution est significativement diffrente de la distribution thorique lorsqu'on
suppose que la production nationale est distribue comme suit: 51.95% de produits
alimentaires et 48.05% de produits non alimentaires ?


Distribution observe 847 840
Distribution thorique (souhaite) 876.4 810.6

Tableau 1.6 Distribution des produits



Exemple 1.18 : la distribution exprimentale suivante me permet-elle de soutenir l'hypothse
que la pice de monnaie est quilibre ?


Pile Face Total
Effectif observe 43 57 100
Effectif thorique 50 50 100

Tableau 1.7


Exemple 1.19 : voici les rsultats de 130 lancs d'un d.


Nombre de points 1 2 3 4 5 6 total
Effectif observ 23 27 8 12 29 31 130

Tableau 1.8a

Le d est-il pip ?

Si on fait l'hypothse que le d est non pip, on obtient la distribution
hypothtique (thorique, espre...) du tableau suivant. On peut tudier par
la suite la question de concordance entre ces deux distributions.


Nombre de points 1 2 3 4 5 6 total
Effectif thorique 21.66 21.66 21.66 21.66 21.66 21.66 130

Tableau 1.8b



Exemple 1.20 : voici la distribution de 6447 articles vendus dans une pharmacie selon les
jours de la semaine.


Jour Lu Ma Me Je Ve Sa Di Total
Effectif observ 981 1015 908 1013 885 717 874 6447

Tableau 1.9a

Peut-on dire que certains jours sont plus favorables aux ventes que d'autres
?


Pour tudier ce problme, partons de l'hypothse que les jours de semaine
n'ont pas d'effet significatif sur la rpartition des ventes, obtenons une
distribution thorique et, ensuite tudions la question de la concordance
entre les deux distributions. Nous comparerons la distribution observe avec
la distribution thorique suivante:


Jour Lu Ma Me Je Ve Sa Di Total
Effectif thorique 921 921 921 921 921 921 921 6447

Tableau 1.9b


Exemple 1.21 : dans notre chantillon, 4051 ventes ont lieu entre le lundi et le jeudi, on
devrait observer 992.75 ventes pour chacun de ces quatre jours. Le tableau de rpartition est
le suivant:


Lu Ma Me Je Total
Effectif observ 981 1015 908 1013 3971
Effectif thorique 992.75 992.75 992.75 992.75 3971

Tableau 1.10



Mesure de divergence entre deux distributions


Notations: O : effectif observ
T : effectif thorique
: sommation


La divergence entre deux distributions est mesure par l'indice du "chi-deux" dsign par le
symbole
2
.


=
T
T) (O
2
2


Remarque 6 : on exige que O=T

En effet, sans cette condition, on pourrait rencontrer des situations comme celle dcrite par le
tableau 1.11:


Total
O (observ) 33 67 100
T (thorique) 3300 6700 10000

Tableau 1.11


Pour ces deux distributions pourtant semblables, la divergence serait norme. C'est la raison
de l'imposition de la condition mentionne.


Remarque 7 : il va de soit qu'on tient compte des diffrences (O - T) pour chacune des
classes. Cependant on aura toujours (O-T)ZERO.

Une faon d'viter que les diffrences positives jouent contre les diffrences ngatives est de
considrer les carrs: (O - T)
2
.


Remarque 8 : on peut se demander pourquoi (O - T)
2
n'est pas une mesure adquate de la
divergence entre deux distributions. Les deux situations de l'exemple ci-dessous illustrent ce
propos.

Exemple 1.22 :


Pile Face

Pile Face
O 10 50
T 30 30

Tableau 1.12a Situation A
O 5010 5050
T 5030 5030

Tableau 1.12b Situation B



Croyez-vous que les deux situations sont semblables ?

videmment non. Cependant, on aura pour la situation A, 26.66
T
T) (O
2
=

, et pour la
situation B, 0.15
T
T) (O
2
=

.



Seuil critique

A partir de quelle valeur de la divergence (qu'on mesure par l'indice du "chi-deux"),
faut-il dire qu'elle est significative ?

Il faut souligner au dpart que, quel que soit le seuil critique, il y a toujours une
chance que notre dcision soit fausse, car il s'agit d'un test bas sur un chantillon et obtenir
un mauvais chantillon est toujours possibles.



Karl Pearson, en faisant les calculs mathmatiques ncessaires, nous a donn un tableau
des seuils critiques pour diffrents niveaux de risque. Les seuils critiques dpendent de deux
lments:

: le degr de risque
: le nombre de degrs de libert = nombre de classe - 1


Notation du seuil critique :


2
;



Par exemple
11.1
2
5;.05
=

est le seuil critique qu'on utilise dans une situation o il y a


6 classes et o l'on fait un test du "chi-deux" avec 5% de risque (d'tre en erreur de rejeter
l'hypothse nulle). Voici les seuils critiques pour = .05.


1 2 3 4 5 6 7 8 9 10 11 12

2
;.05


3.84

5.99

7.81

9.49

11.1

12.6

14.1

15.5

16.9

18.3

19.7

21.0

Tableau 1.13
Important

On postule toujours l'hypothse, appele hypothse nulle, qu'il n'y a pas de diffrence
significative entre les deux distributions.


Les tapes d'un test du chi-deux pour tester l'hypothse nulle H
0
sont les suivantes:


1. Calcul des effectifs thoriques.

2. Calcul du nombre de degrs de libert dl= qui est gal au nombre de classe moins
un.

3. Choix du degr de risque , souvent = .05 (5%).
4. Dtermination dans le tableau du seuil critique


2
;
.
5. Calcul de la divergence

=
T
T) (O
2
2
.
6. Si


>
2 2
;
on rejette l'hypothse nulle et on dit que la divergence entre le
tableau observ et le tableau thorique est significative.
Sinon, cest dire si

2 2
;
,on dit que la divergence entre les tableaux est non
significative.



Exemple 1.23 : Test du chi-deux

On pose l'hypothse: H
0
(l'hypothse nulle): (voir exemple 1.17)

La distribution des produits par type dans notre chantillon est la mme que celle de la
population (i.e. 51.95% et 48.05%).




On applique le test de chi-deux pour tester H
0
.
On note le degr de libert: = 2 - 1 = 1.
On choisit le degr de risque (i.e niveau de test): = .05 (5%)
On trouve, dans la table du chi-deux, le seuil critique pour 1 dl et un niveau de risque de
5% :
3.84
2
1;.05
=


On calcule la divergence (par l'indice du "chi-deux") entre les deux distributions (observe
et thorique).



Distribution observe 847 840
Distribution thorique (souhaite) 876.4 810.6

Tableau 1.14 Distribution des produits par type


2.05
810.6
810.6) (840
876.4
876.4) (847
2 2
2
=



Conclusion: Puisque

2
est infrieur au seuil critique

2
1;.05
, l'hypothse nulle n'est
pas rejete.


Exemple 1.24 : en se basant sur la distribution (observe) suivante des 360 ventes de
voitures selon les quatre trimestres d'une anne, peut-on dire que la priode influence la
distribution des ventes ?


Premier
trimestre
Deuxime
trimestre
Troisime
trimestre
Quatrime
trimestre
Total
Effectif observ 76 88 100 46 360
Frquence 0.211 .244 .278 .267 1.00

Tableau 1.15

Voici les diffrentes formulations de l'hypothse qu'on peut tester par la mthode de chi-deux.

Hypothse nulle (diffrentes formulations):

Les ventes selon les trimestres se distribuent comme suit : , , ,
ou
Les trimestres n'ont pas d'influence sur les naissances
ou
Les ventes se distribuent uniformment.


Quelle que soit la formulation, la distribution thorique serait


Premier
trimestre
Deuxime
trimestre
Troisime
trimestre
Quatrime
trimestre
Total
Effectif thorique 90 90 90 90 360

Tableau 1.16

La divergence

=
T
T) (O
2
2

s'avre tre:
3.73
90
90) (96
90
90) (100
90
90) (88
90
90) (76
2 2 2 2
=



= 4 - 1 = 3.
choix du degr de risque (i.e niveau de test): = .05 (5%)

7.81
2
3;.05
=


Conclusion: Puisque

2
est infrieur au seuil critique

2
3;.05
, l'hypothse nulle n'est
pas rejete.
7. Collecte des donnes

Les gouvernements, les industries, les commerces et les institutions importantes (de
sant, de scurit, de formation, etc.) ont continuellement besoin d'information sur les
opinions et les attitudes, les naissances, les dcs, l'immigration, les revenus, les dpenses,
les emplois, le chmage, l'levage, les prix, la consommation, l'ducation, la sant, la
production agricole, les cots des produits manufacturiers, etc.

Souvent on se trouve avec des populations de trs grande taille pour lesquelles on
ne peut pas faire l'tude de variables cibles pour chaque unit statistique. Dans ce cas on
slectionne une partie de la population qu'on appelle chantillon. Lorsqu'il s'agit d'une
population d'tres humains et que l'tude des variables se fait par un questionnaire, l'tude
chantillonnale est appele sondage.

Pour que les rsultats obtenus par chantillonnage (ou sondage) soient objectifs et
reprsentatifs de la population cible, la slection des units pour l'chantillon se fait d'une
manire objective et impartiale. Un tel but est atteint par ce qu'on appelle une "slection
alatoire".

On dtermine tout d'abord la taille de l'chantillon. Dans ce qui suit, on dsignera par
N et n respectivement la taille de la population et la taille de l'chantillon. Le ratio n/N est
appel la fraction d'chantillonnage. Une fraction d'chantillonnage de 10% fournit en gnral
de trs bons rsultats. On voit souvent des enqutes dans lesquelles la fraction
d'chantillonnage est aussi petite que 1/1000 ou mme moins (1000/7000000 dans la plupart
des enqutes sur les opinions politiques au Qubec). La fraction d'chantillonnage est bien
entendu dtermine par des paramtres comme:

le budget disponible
le temps disponible pour effectuer l'enqute
l'expertise dans la collecte des donnes (qualit des instruments et comptence des
enquteurs)
la prcision dsire

La dtermination de la taille de l'chantillon est une question complexe, qui constitue elle-
mme un sujet d'tude et qui ncessite des consultations auprs de diffrents experts.

Si la taille est dtermine uniquement par le budget B, si C dsigne le cot de slection
par unit et que C
0
dsigne le cot fixe de planification, organisation, etc de l'chantillonnage,
alors le budget et la taille n sont relis par la relation:

B=Cn+ C
0


et donc

n=(B-C
0
)/C


Le temps peut tre un facteur contrlant galement. Quel que soit le facteur dterminant
la taille de l'chantillon, la fraction d'chantillonnage est une information importante associer
au sondage.


Population et sous-populations

Pour amliorer la qualit des rsultats ou pour des raisons d'accessibilit aux
ressources ou de limites quant aux mthodes de collecte, il arrive que l'on divise une
population en sous-populations qui peuvent tre de tailles diffrentes N
1
, N
2
, , N
L
telles que
: N
i
=N. Ces sous-populations sont appeles strates. Pour constituer un chantillon de taille
n, il arrive que l'on fasse des slection indpendantes et individuelles de tailles diffrentes n
1
,
n
2
, , n
L
dans chacune des L sous-populations de sorte que : n
i
=n.


Remarque 9 : ce genre de slection s'appelle chantillonnage stratifi. Lorsque les
fractions d'chantillonnage n
1
/N
1
, n
2
/N
2
, n
L
/N
L
sont toutes gales, l'chantillonnage est dit
stratifi allocation proportionnelle.

Remarque 10 : d'autres considrations peuvent entrer en ligne de compte pour dterminer la
dcomposition de n en n
1
, n
2
, , n
L
. On peut par exemple assigner une plus grande fraction
d'chantillonnage aux strates les plus htrognes. Ces questions dpassent le niveau de cet
ouvrage et font l'objet de cours de sondage. Il faut nanmoins retenir que l'utilisateur doit
consulter un statisticien qualifi.

Dans certains chantillonnages, on constitue un chantillon de taille n dans la
population mre et on classifie les observations slectionnes dans des strates par la suite.
Par exemple, on peut faire une slection de personnes travaillant dans une entreprise sans
faire de distinction entre les catgories socio-professionnelles puis les classifier par la suite et
faire une tude par strate. Ce type de procdure porte le nom de post-stratification.


Echantillonnage alatoire simple

Toute mthode de slection qui assigne une chance gale chaque unit d'tre dans
l'chantillon est appele chantillonnage alatoire simple (EAS). Il existe deux types d'EAS:

l'EASSR ou chantillonnage alatoire simple sans remise
l'EASAR ou chantillonnage alatoire simple avec remise

L'EAS s'excute par tirage alatoire simple avec ou sans remise. On slectionne les
units les unes aprs les autres en donnant une chance gale aux lments qui restent
chaque tape de la slection.

Dans un EASSR la probabilit d'inclusion est n/N. En effet la probabilit d'tre tir au
premier tirage est de 1/N, la probabilit d'tre tire au deuxime tirage est de (N-1)/N X 1/(N-
1) soit 1/N, la probabilit d'tre tir au troisime tirage est de (N-1)/N X (N-2)/(N-1) X 1/(N-2)
soit 1/N, etc. A chaque tirage la probabilit d'tre tir est de 1/N. Comme il y a n tirages, la
probabilit d'inclusion est donc n.

Dans un EASAR, la probabilit d'inclusion est de 1- [(N-1)/N]
n
. En effet, chaque
tirage, la probabilit de ne pas tre choisi est de (N-1)/N. La probabilit de ne pas tre choisi
au cours des n tirages est donc [(N-1)/N]
n
et donc la probabilit d'tre choisi au moins une
fois est la probabilit de l'vnement contraire soit: 1- [(N-1)/N]
n
.

La mthode usuelle de slection consiste assigner chaque unit un entier compris
entre 1 et N. Les calculatrices avec des fonctions statistiques ou le programme Excel
permettent de gnrer des nombres alatoires compris entre 1 et N et de procder au tirage.
Cette mthode est quivalente au tirage alatoire de boules contenues dans une urne.

La slection alatoire simple s'applique aussi dans l'chantillonnage stratifi une fois
l'allocation dtermine.

L'EAS assignant un poids de slection gal toutes les units parat objectif, mais il
n'est pas toujours raisonnable. Dans certains cas d'autres systmes de slection sont
considrs comme tant plus quitables, un systme de slection au prorata de la taille de
chaque strate en est un exemple.

Parmi les autres types d'chantillonnage populaires, on peut mentionner:
l'chantillonnage systmatique et l'chantillonnage par grappes.

L'EAS assignant un poids de slection gal toutes les units parat objectif, mais il
n'est pas toujours raisonnable. Dans certains cas d'autres systmes de slection sont
considrs comme tant plus quitables, un systme de slection au prorata de la taille de
chaque strate en est un exemple.




Variable cible

Toute tude statistique est destine recueillir de l'information sur des attributs
d'intrt qu'on appelle des variables cibles. Par exemple: le salaire, l'ge, l'habitude de fumer,
le nombre de salaris dans une entreprise, etc.

Dans une population les N units possdent une mesure sur l'attribut tudi: Y
1
, Y
2
,
, Y
N
. Le total Y
1
+Y
2
+ +Y
N
ou la moyenne Y =(Y
1
+Y
2
+ +Y
N
)/N sont des inconnues qu'on
cherche estimer par l'chantillonnage.

Une variable qui dsigne un attribut qualitatif (opinion, sexe, etc.) admet deux valeurs
possibles: 0 si l'unit ne possde pas l'attribut et 1 si l'unit possde l'attribut. Dans ce cas
Y
1
+Y
2
+ +Y
N
= A dsigne le nombre total de personnes ayant l'attribut et la moyenne
(Y
1
+Y
2
+ +Y
N
)/N = A/N dsigne la proportion P de personnes ou d'units possdant
l'attribut. A et P font souvent l'objet de sondages d'opinion.

Lorsque la population est dsigne par des mesures Y
1
, Y
2
, , Y
N
l'chantillon est
reprsent par y
1
, y
2
, , y
n
. Dans ce contexte y =(y
1
+y
2
+ +y
n
)/n est la moyenne
chantillonnale. Y est un valeur inconnue mais fixe, y est une valeur qui varie d'un
chantillon un autre, mais qui est connue pour chaque chantillon.






































Exercices du chapitre 1


1.1 Testez l'hypothse, au niveau = .05, que les deux distributions de l'exemple 1.18 n'ont
pas de diffrence significative.


1.2 En vous basant sur les rsultats des 130 lancs de l'exemple 1.19 testez l'hypothse que
le d en question est non-pip.


1.3 En vous basant sur la distribution observe des 6447 ventes de l'exemple 1.20 selon les
jours de la semaine, testez l'hypothse que les ventes sont uniformment distribues selon
les sept jours de la semaine.


1.4 Toujours en vous basant sur la distribution observe des ventes (exemple 1.20), testez
l'hypothse que les jours de lundi vendredi n'ont pas d'influence sur les ventes.


1.5 Pour la distribution des ventes (exemple 1.20), testez l'hypothse qu'elles sont
uniformment rparties sur les jours de la fin de semaine.


1.6 Voici la distribution des revenus (en milliers de dollars) des familles canadiennes en 1985.



Distribution des revenus (en milliers de dollars)
des familles canadiennes en 1985

Classe de revenu 0-15 15-25 25-40 40-60 60 et plus Total
Frquence 0.137 0.175 0.271 0.256 0.161 1



Distribution des revenus (en milliers de dollars)
de 500 familles immigrantes en 1985

Classe de revenu 0-15 15-25 25-40 40-60 60 et plus Total
Effectif 80 92 163 110 55 500
Frquence 0.160 0.184 0.326 0.326 0.110 1



Est-ce que la diffrence entre la distribution des revenus des familles immigrantes et celle
des familles canadiennes est significative ? (utilisez = .05).


1.7 Dcrire la diffrence entre un recensement et un sondage.


1.8 Vous voulez faire un sondage auprs des tudiants sur des questions portant sur
l'utilisation de la bibliothque. Allez-vous stratifier selon le sexe ou selon le niveau d'tude
(premier, deuxime ou troisime cycle)? Que pensez-vous d'une allocation proportionnelle
pour ce sondage?


1.9 Vous travaillez pour un cabinet comptable et vous tes charg d'une tude
chantillonnale sur des dossiers d'impts de vos clients pour les 10 dernires annes. Vous
disposez pour cette tude d'une somme de 20 000$. Chaque dossier slectionn ncessite
une analyse cotant 100$ en moyenne. Si le cot fixe d'organisation est de 5 000$, quelle
sera la taille de l'chantillon? Allez-vous fractionner cette taille selon des strates? Si oui,
quelles seront ces strates: diffrentes annes ou diffrents montant d'imposition? Ferez-vous
un chantillon alatoire simple ou donnerez-vous des poids d'chantillonnage?


1.10 Un comptable est entr dans un entrept et a slectionn 10 units selon leur facilit
d'accessibilit (units visibles, peu de dplacement faire pour les atteindre). S'agit-il d'une
slection alatoire simple? S'agit-il d'une slection objective? Pourquoi?


1.11 On effectue un sondage par tlphone en suivant l'annuaire par ordre alphabtique
jusqu' ce qu'on obtienne le nombre de rponses dsires. Est-ce un sondage objectif? Est-il
fiable?











































Solutions des exercices du chapitre 1


1.1 On pose l'hypothse H
0
: la pice de monnaie est quilibre.

Il s'agit de tester si la divergence entre les deux distributions suivantes est significative.


Pile Face Total
Effectif observ 43 57 100
Effectif thorique 50 50 100



dl==2-1=1

Risque: = .05 (5%)
Seuil critique pour 1dl et de niveau 5%:
3.84
2
1;.05
=




Divergence: 1.96
50
50) (57
50
50) (43
2 2
2
=




Conclusion: en s'appuyant sur les observations donnes, compte tenu du fait que la
divergence ne dpasse pas le seuil critique, on ne peut rejeter l'hypothse nulle selon
laquelle la pice de monnaie est quilibre.


1.2
H
0
: Le d est non pip.

On teste H
0
avec = .05
= 6 - 1 = 5

11.1
2
5;.05
=





Nombre de points 1 2 3 4 5 6 total
Effectif observ 23 27 8 12 29 31 130
Effectif thorique 21.66 21.66 21.66 21.66 21.66 21.66 130


20.84
21.66
21.66) (31
21.66
21.66) (29
21.66
21.66) (12
21.66
21.66) (8
21.66
21.66) (27
21.66
21.66) (23
2 2 2 2 2 2
2
=




Conclusion : la divergence
2
dpasse le point critique et on rejette l'hypothse nulle que le
d soit non pip (et ceci un risque de 5%).


1.3 H
0
: les ventes sont uniformment distribus selon les jours de la semaine. En se basant
sur les observations suivantes, on test H
0
par la mthode du "chi-deux" au niveau = .05.




Jour Lu Ma Me Je Ve Sa Di Total
Effectif observ 981 1015 908 1013 885 717 874 6447



La distribution thorique (selon H
0
) des 6447 suicides est la suivante:


Jour Lu Ma Me Je Ve Sa Di Total
Effectif thorique 921 921 921 921 921 921 921 6447


= .05
= 7 - 1 = 6
seuil critique:
12.6
2
6;.05
=




62
921
921) (874
921
921) (717
921
921) (885
921
921) (1013
921
921) (908
921
921) (1015
921
921) (981
2 2 2 2 2 2 2
2
=



Conclusion : on rejette H
0
avec un risque de 5%.



1.4

Lu Ma Me Je Ve Total
Effectif observ 981 1015 908 1013 905 4822
Effectif thorique 964.4 964.4 964.4 964.4 964.4 3917



H
0
: les cinq premiers jours de semaine n'ont pas d'influence sur les ventes.

= .05
= 5 - 1 = 4
seuil critique:
9.49
2
4;.05
=




15.23
964.4
964.4) (885
964.4
964.4) (1013
964.4
964.4) (908
964.4
964.4) (1015
964.4
964.4) (981
2 2 2 2 2
2
=



Conclusion : on rejette H
0
avec un risque de 5%.

1.5

Samedi Dimanche Total
Observe 717 874 1591
Thorique 795.5 795.5 1591


H
0
: les jours de fin de semaine n'ont pas d'influence sur les ventes.

= .05
= 2 - 1 = 1
seuil critique:
3.84
2
1;.05
=




15.49
795.5
795.5) (874
795.5
795.5) (717
2 2
2
=



Conclusion : on rejette H
0
avec un risque de 5%.


1.6

H
0
: La distribution des revenus des familles immigrantes n'est pas significativement diffrente
de celle des revenus des familles canadiennes.

On test par la mthode du "chi-deux".


Classe de revenu 0-15 15-25 25-40 40-60 60 et plus Total
Effectif observ 80 92 163 110 55 500
Effectif thorique
*

500.137
68.5
500.175
87.5
500.271
135.5
500.256
128
500.161
80.5

500

Degrs de libert: = 5 - 1 = 4.

Seuil critique de niveau de risque 5% et pour 4 dl :
9.49
2
4;.05
=




18.35
80.5
80.5) (55
128
128) (110
135.5
135.5) (163
87.5
87.5) (92
68.5
68.5) (80
2 2 2 2 2
2
=



Conclusion : on rejette H
0
avec un risque de 5%.



* Distribution que l'on aurait si le revenu des familles immigrantes se distribuait
"thoriquement" comme celui des familles canadiennes.

S-ar putea să vă placă și