Sunteți pe pagina 1din 8

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Test dindpendance du khi-deux


Ex suggrs : (Chapitre 15 : section 15.6) p.672et673 : rvision 15.4 - ex. 15.15 et 15.17 p.677et 678 : ex. 15.29 et 15.31

Contexte :
Deux variables qualitatives X et Y mesures sur une mme population.

Hypothses :
H0 : X et Y sont indpendantes en probabilit. H1 : X et Y ne sont pas indpendantes en probabilit.

Lchantillon
Il faut dterminer la distribution conjointe observe. Cette distribution est prsente dans un tableau de contingence :
Y X (modalits ou classes) A1 A2 Ar Total (modalits ou classes)

B1 n1,1 n2,1 nr,1

B2 n1,2 n2,2 nr,1

Bs n1,s n2,s nr,s

Total

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Exemple 1 :
Les donnes ci-dessous ont t observes sur un chantillon alatoire de 500 travailleurs. Pour chacun dun, on a valu le niveau de stress au travail et mesur le temps pris pour se rendre au travail:
Employ 1 2 3 4 5 . . 499 500 Niveaudestress Temps(min) lev 50 faible 20 faible 25 moyen 35 lev 60 . . . . moyen 55 moyen 15

Pour tablir le tableau de contingence, on a regroup les valeurs de la variable temps pour crer 3 catgories. Voici les rsultats obtenus :
Temps pour se rendre au travail Niveau de stress lev modr faible
Total

Moins de 15 minutes 32 29 77
138

De 15 45 minutes 73 34 121
228

Plus de 45 minutes 58 36 40
134

Total 163 99 238 n=500

Ces donnes permettent-elles de conclure quil existe une relation significative entre le niveau de stress des travailleurs et le temps quils prennent pour se rendre au travail?

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Effectifs observs :

fo : les effectifs observs dans lchantillon


prlev.

Effectifs thoriques (ou esprs) :

fe :les effectifs calculs sous lhypothse


dindpendance.

(tot.ligne) (tot.colonne) n
Moins de 15 minutes De 15 45 minutes Plus de 45 minutes Total

lev Modr faible Total

fo fe fo fe fo fe

32 44.99 29 27.32 77 65.69 138

73 74.33 34 45.14 121 108.53 228

58 43.68 36 26.53 40 63.78 134

163 99 238 500

Le principe du test est bas sur lcart global entre les effectifs observs dans lchantillon et les effectifs esprs. Sil y a indpendance au niveau de la population, on sattend ce que cet cart soit petit .
3

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Si lcart est trop grand pour sexpliquer uniquement par le hasard de lchantillonnage, alors on pourra mettre en doute lindpendance des deux variables
Statistique du test :

( fo fe ) 2 = fe
2

Conditions dapplication du test :

1. La taille n doit tre assez grande. 2. Les effectifs esprs fe sont tous
Distribution de la statistique si H0 est vraie :

5.

Si les deux conditions prcdentes sont satisfaites, la distribution de la statistique du test sapproche dune loi Khi-deux (r-1) (c-1) degrs de libert, o r = nombre de lignes et c = nombre de colonnes dans le tableau de contingence.

f(Khi-deux)

Khi-deux 4 degrs de libert

10

11

12

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Rgle de dcision :

Rejeter H0 si
La valeur de la statistique du test est > valeur critique

La valeur critique est le quantile dordre 1- dune Khi-deux (r-1) (c-1) degrs de libert.
ou bien avec le seuil exprimental (p-value):

Rejeter H0 si seuil de signification.


LE TEST AVEC MEGASTAT
Megastat>Chi-Square/Crosstab/Contingency Table (Avec ce sous menu, le tableau de contingence avec les effectifs observs doit dj tre entr dans une feuille Excel)

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Avec Contingency Table


Attention : Slectionner la plage de cellules contenant les effectifs observs seulement (ne pas inclure le Total )

Chi-square : pour obtenir la valeur de la statistique du test et le seuil Cocher exprimental correspondant. la valeur de la statistique du test et le chi-square : Pour avoir

seuil exprimental. Expected values : pour avoir les effectifs esprs dans chaque cellule. Expected values : Pour avoir le dtail des effectifs esprs.
(O-E)2/E : donne la contribution de chaque cellule la valeur de la statistique du test (O = effectif observ et E = effectif espr). On peut aussi avoir cette contribution en % en cochent % of chi-square % of row et % of column : pour avoir les frquences des distributions conditionnelles. % of total : distribution conjointe en frquence.

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Sortie de rsultats pour les donnes de lexemple 1 :


Chi-square Contingency Table Test for Independence
Moins de 15 minutes lev Observed Expected (O - E) / E % of chisq modr Observed Expected (O - E) / E % of chisq Observed Expected (O - E) / E % of chisq Observed Expected (O - E) / E % of chisq De 15 45 minutes Plus de 45 minutes Total 163 163.00 8.46

faible

32 44.99 3.75 13.9% 29 27.32 0.10 0.4% 77 65.69 1.95 7.2%


138 138.00 5.80

73 74.33 0.02 0.1% 34 45.14 2.75 10.2% 121 108.53 1.43 5.3%
228 228.00 4.21

58 43.68 4.69 17.4% 36 26.53 3.38 12.5% 40 63.78 8.87 32.9%


134 134.00 16.94

31.4%
99 99.00 6.23

23.1%
238 238.00 12.25

45.5%
500 500.00 26.95 100.0%

Total

21.5%

15.6%

62.9%

26.95 chi-square 4 df 2.04E-05 p-value

Statistique 1-620-07

Chapitre 15 (section 15.6)

Hiver 2008

Dans lexemple prcdent, on rejette lhypothse dindpendance. Il existe donc un lien de dpendance significatif entre les deux variables. Lexamen des contributions de chaque cellule la valeur de la statistique du test nous indique que ce sont les gens qui prennent plus de 45 minutes qui contribuent le plus faire rejeter lindpendance. Les carts entre les effectifs esprs et les effectifs thoriques nous indiquent que, de manire gnrale, plus les gens prennent du temps pour se rendre au travail, plus leur niveau de stress a tendance tre fort. On peut confirmer la nature de la dpendance en analysant les distributions conditionnelles du niveau de stress tant donn le temps pris pour se rendre au travail :
Chi-square Contingency Table Test for Independence
Moins de 15 minutes lev Observed % of column modr Observed % of column faible Total Observed % of column Observed % of column De 15 45 minutes Plus de 45 minutes Total

32 23.2% 29 21.0% 77 55.8%


138 100.0%

73 32.0% 34 14.9% 121 53.1%


228 100.0%

58 43.3% 36 26.9% 40 29.9%


134 100.0%

163 32.6% 99 19.8% 238 47.6%


500 100.0%

S-ar putea să vă placă și