Documente Academic
Documente Profesional
Documente Cultură
Hiver 2008
Contexte :
Deux variables qualitatives X et Y mesures sur une mme population.
Hypothses :
H0 : X et Y sont indpendantes en probabilit. H1 : X et Y ne sont pas indpendantes en probabilit.
Lchantillon
Il faut dterminer la distribution conjointe observe. Cette distribution est prsente dans un tableau de contingence :
Y X (modalits ou classes) A1 A2 Ar Total (modalits ou classes)
Total
Statistique 1-620-07
Hiver 2008
Exemple 1 :
Les donnes ci-dessous ont t observes sur un chantillon alatoire de 500 travailleurs. Pour chacun dun, on a valu le niveau de stress au travail et mesur le temps pris pour se rendre au travail:
Employ 1 2 3 4 5 . . 499 500 Niveaudestress Temps(min) lev 50 faible 20 faible 25 moyen 35 lev 60 . . . . moyen 55 moyen 15
Pour tablir le tableau de contingence, on a regroup les valeurs de la variable temps pour crer 3 catgories. Voici les rsultats obtenus :
Temps pour se rendre au travail Niveau de stress lev modr faible
Total
Moins de 15 minutes 32 29 77
138
De 15 45 minutes 73 34 121
228
Plus de 45 minutes 58 36 40
134
Ces donnes permettent-elles de conclure quil existe une relation significative entre le niveau de stress des travailleurs et le temps quils prennent pour se rendre au travail?
Statistique 1-620-07
Hiver 2008
Effectifs observs :
(tot.ligne) (tot.colonne) n
Moins de 15 minutes De 15 45 minutes Plus de 45 minutes Total
fo fe fo fe fo fe
Le principe du test est bas sur lcart global entre les effectifs observs dans lchantillon et les effectifs esprs. Sil y a indpendance au niveau de la population, on sattend ce que cet cart soit petit .
3
Statistique 1-620-07
Hiver 2008
Si lcart est trop grand pour sexpliquer uniquement par le hasard de lchantillonnage, alors on pourra mettre en doute lindpendance des deux variables
Statistique du test :
( fo fe ) 2 = fe
2
1. La taille n doit tre assez grande. 2. Les effectifs esprs fe sont tous
Distribution de la statistique si H0 est vraie :
5.
Si les deux conditions prcdentes sont satisfaites, la distribution de la statistique du test sapproche dune loi Khi-deux (r-1) (c-1) degrs de libert, o r = nombre de lignes et c = nombre de colonnes dans le tableau de contingence.
f(Khi-deux)
10
11
12
Statistique 1-620-07
Hiver 2008
Rgle de dcision :
Rejeter H0 si
La valeur de la statistique du test est > valeur critique
La valeur critique est le quantile dordre 1- dune Khi-deux (r-1) (c-1) degrs de libert.
ou bien avec le seuil exprimental (p-value):
Statistique 1-620-07
Hiver 2008
Chi-square : pour obtenir la valeur de la statistique du test et le seuil Cocher exprimental correspondant. la valeur de la statistique du test et le chi-square : Pour avoir
seuil exprimental. Expected values : pour avoir les effectifs esprs dans chaque cellule. Expected values : Pour avoir le dtail des effectifs esprs.
(O-E)2/E : donne la contribution de chaque cellule la valeur de la statistique du test (O = effectif observ et E = effectif espr). On peut aussi avoir cette contribution en % en cochent % of chi-square % of row et % of column : pour avoir les frquences des distributions conditionnelles. % of total : distribution conjointe en frquence.
Statistique 1-620-07
Hiver 2008
faible
73 74.33 0.02 0.1% 34 45.14 2.75 10.2% 121 108.53 1.43 5.3%
228 228.00 4.21
31.4%
99 99.00 6.23
23.1%
238 238.00 12.25
45.5%
500 500.00 26.95 100.0%
Total
21.5%
15.6%
62.9%
Statistique 1-620-07
Hiver 2008
Dans lexemple prcdent, on rejette lhypothse dindpendance. Il existe donc un lien de dpendance significatif entre les deux variables. Lexamen des contributions de chaque cellule la valeur de la statistique du test nous indique que ce sont les gens qui prennent plus de 45 minutes qui contribuent le plus faire rejeter lindpendance. Les carts entre les effectifs esprs et les effectifs thoriques nous indiquent que, de manire gnrale, plus les gens prennent du temps pour se rendre au travail, plus leur niveau de stress a tendance tre fort. On peut confirmer la nature de la dpendance en analysant les distributions conditionnelles du niveau de stress tant donn le temps pris pour se rendre au travail :
Chi-square Contingency Table Test for Independence
Moins de 15 minutes lev Observed % of column modr Observed % of column faible Total Observed % of column Observed % of column De 15 45 minutes Plus de 45 minutes Total