Documente Academic
Documente Profesional
Documente Cultură
Introduction aux
Statistiques
Citation :
Introduction aux statistiques - © 1996, Ramousse R., Le
Berre M. & Le Guelte L.
Les analyses de variance ou analyses factorielles sont des techniques permettant de savoir si
une ou plusieurs variables dépendantes (appelées aussi variables endogènes ou variables à
expliquer) (valeurs numériques et continues [c-à-d des effectifs, des rapports comme des
longueurs ou des poids, etc..] = disposées dans différentes lignes d’un tableau) sont en
relation avec une ou plusieurs variables dites indépendantes (ou variables exogènes ou
variables explicatives) (disposées dans différentes colonnes d’un tableau).
C’est la somme des carrés des écarts par rapport à la moyenne / nombre
de degrés de liberté = SCE/ddl (ceci lorsque le nombre d’individus
composant l’échantillon est réduit ; sinon, utiliser N’=N). La variance est le
carré de l’écart-type.
Quatre situations principales peuvent être rencontrées, cependant, nous ne développerons que
la première :
•Avec une seule variable dépendante (à expliquer), et une ou plusieurs variables explicatives
discrètes (dites aussi catégorielles, qualitatives, nominales, de classification = ne pouvant donc
prendre qu'un nombre limité de valeurs comme le sexe, la catégorie socio-professionnelle,
etc...) on utilise l'analyse de variance. On appelle facteurs les variables explicatives.
L'analyse consiste à tester si les différences de variation dans chaque groupe (ou
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
échantillon) défini par les modalités des variables explicatives s'écartent de manière
significative de la valeur 0.
•Avec toujours une seule variable à expliquer, mais une ou plusieurs variables explicatives,
toutes continues, on fait appel au modèle de régression linéaire simple ou multiple : on
appelle régresseurs les variables explicatives. La régression consiste à évaluer les paramètres
d'une fonction linéaire, à estimer à l'aide de cette fonction les valeurs de la variable à expliquer
et à tester si les différences (= les résidus) entre valeurs mesurées et valeurs estimées
s'écartent de manière significative de 0.
Seuls des échantillons suivant une loi normale peuvent faire l’objet d’une analyse de
variance paramétrique. Pour vérifier que la distribution d’un échantillon suit une loi normale,
il est possible d’utiliser, dans Statview II, le test descriptif d’aplatissement et d’asymétrie (de
kurtosis and skewness, en anglais).
On considère que l’échantillon suit une loi normale à 95 % lorsque la valeur de son
aplatissement est compris enttre -2 et +2.
On calcule les différentes variances pour chacun des échantillons à comparer, et on fait le
rapport de la plus grande sur la plus petite, ce rapport est F.
Cette valeur est comparée, dans une table de Hartley (ou du Fmax), à une valeur théorique
et doit lui être inférieure pour un seuil de risque choisi (par exemple, 95 %) pour conserver
l'hypothèse d'homogénéité des variances.
Les d.d.l. sont, pour la colonne de la table du Fmax, le nombre de traitements (=k) (colonnes
de données), et pour la ligne de la table, le nombre de données du plus grand échantillon - 1
(=n-1).
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
L'hypothèse nulle H0 est l'égalité des moyennes des populations dont sont extraits
les échantillons : m1=m2=m3=...=mk
5.3.4.1. Principe
Notation : Le nombre d'échantillons est noté k, le nombre de mesures par échantillon est
désigné par n et le nombre total de mesures, kn.
1. Manuellement, on calcule :
a = [a-b] + b
Variance totale = Variance inter-groupe + Variance
intra-groupe
[SCE à la moyenne générale] = [SCE factorielle] + [SCE
résiduelle]
=
3. On calcule le rapport :
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
Notation :
Ti Tj Tk G totaux
somme des carrés
moyennes
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
5.3.4.2. Exemple 1
On veut savoir si la quantité de nitrates varie d'une station à l'autre le long d'une rivière. Pour
cela, on prélève en 10 points (n=10) chaque fois une certaine quantité d'eau dans 3 stations
différentes (k=3).
(inter-groupe) = ou =(S(moyTj-moyX)2)*n
Sommes des carrés des écarts (SCE) expérimentales total
- ou S(X-moyX) 2
D’où :
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
Les échantillons à comparer étant indépendants, on disposera l’ensemble des mesures dans
une seule colonne (Y1) et les numéros des échantillons des individus dans une seconde
colonne (X1).
Conclusion de l’expérience : pour cette série de mesures, on peut donc conclure que les
taux de nitrates des trois stations ne diffèrent pas significativement ou que ces 3 stations ne
diffèrent pas significativement par leur taux de nitrates avec une seuil de signification (risque
d’erreur) de 5%.
On dispose de k=3 échantillons comprenant n=5 individus dont les valeurs sont données dans
le tableau ci-après : il s’agit des différences de temps de réaction pour trois souches de souris
soumises à une même expérience.
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
Dans cet exemple, la valeur de F(2,12) est très supérieure au seuil de signification de 1% :
6,93. La probabilité exacte calculée est de 0,0001.
L’hypothèse nulle est donc rejetée. On considère que les 3 échantillons diffèrent
significativement (la probabilité de se tromper est de 0,0001).
* significatif à 95%
La significativité des tests PLSD de Fischer et F de Scheffé permet de considérer qu’il y a une
différence significative entre les souches 1, 2 et 3 de souris testées.
Cette situation correspond aux échantillons appariés des tests pour deux échantillons.
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
Calculs à réaliser dans le cas d’un traitement manuel (ou avec un tableur) :
5.3.5.2.. Exemple 1
Pour simplifier, on reprend les valeurs de l’exemple précédent (§3.2.), en considérant qu'elles
correspondent cette fois à la quantité de nitrates mesurée aux mêmes points de
prélèvements, au cours de 3 saisons, dans une station le long d'une rivière.
X1 X2 X3 total
50,00 162,00 120,00 332,00
52,00 350,00 120,00 522,00
123,00 125,00 122,00 370,00
100,00 320,00 221,00 641,00
200,00 112,00 253,00 565,00
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
944832,53
(1)=
(2)= 1114850
1735^2/n+1881^2/n+1708^2/n 946565,00
(3)=
332^2/k+522^2/k+...684^2/k 985621,33
(4)=
Présentation des données : les échantillons étant appariés (mesures répétées), les valeurs
mesurées sont placées dans des colonnes différentes affectées des variables X1, X2, X3, Xn.
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
Conclusion de l’expérience : pour cette série de mesures, on peut donc conclure que les
taux de nitrates des trois séries de mesures ne diffèrent pas significativement ou que cette
station ne présente pas de variation significative du taux de nitrates, au cours des trois saisons
de mesure, avec un seuil de signification (risque d’erreur) de 5 %.
On étudie l’influence d’une substance sur le temps de réaction de n=5 sujets préalablement
entraînés à répondre à un stimulus. L’ordre selon lequel chaque substance est administrée à
chaque sujet est déterminé de manière aléatoire. Une durée suffisante est observée entre
l’administration de deux substances différentes. Les résultats obtenus sont des temps de
réaction sous l’influence de chacune des k=4 substances testées.
Fiabilité pour : toutes les séries = 0,6823 ; une seule série = 0,3494
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
* significatif à 95%
Ce tableau permet de compléter l’ANOVA en comparant les moyennes des groupes (colonnes)
deux à deux. Les tests proposés par Staview sont : le PLSD de Fischer, le F de Scheffé et le t
de Dunnett.
Le PLSD de Fischer (Procédure de " least significant difference method " de Fisher) est
utilisé pour tester l’hypothèse nulle que toutes les moyennes de la population sont égales. C’est
une méthode pour contrôler les erreurs de type 1 lorsque l’on compare plusieurs paires de
moyennes. Lorsque les résultats de l’ANOVA sont significatifs, on peut comparer les moyennes
des groupes 2 à 2 en utilisant un test de t.
Le F de Scheffé permet de déterminer si, après une ANOVA significative, les moyennes de 2
des groupes de la variable indépendante diffèrent. Le test de Scheffé ne demande pas que tous
les échantillons utilisés dans l’ANOVA aient la même taille. Le test de Tukey, lui, nécessiterait
des échantillons de même taille. Ce test très conservatif ne devrait être utilisé que quand tous
les échantillons de l’ANOVA ont des tailles différentes.
Le test de Dunnett est un test spécialisé pour la comparaison multiple. Le test de Dunnett
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
est employé quand les comparaisons ne sont faites qu’avec le groupe témoin contre tous les
autres groupes.
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
même degré d'abstraction que les figures géométriques par rapport aux objets réels.
Ainsi, la distribution des prix d'un produit présente, en général, une certaine asymétrie (vers la
gauche); mais elle est suffisamment faible pour que cette distribution puisse être considérée,
en première approximation, comme normale.
On s'exposerait, au contraire, à des erreurs grossières en étendant ces tests à des données
(salaires, tailles des entreprises) dont la distribution est fortement asymétrique.
Cependant, de nombreuses études ont montré que l'analyse de variance est peu sensible à la
non-normalité des populations-parents et à l'inégalité des variances. Il suffit en pratique
d'éviter son emploi lorsque les distributions des populations-parents sont très différentes
(distributions en i ou en j par exemple ou sont de forme très différente de l'une à l'autre (en
cloches à dissymétries de sens opposés par exemple) surtout sur de petits échantillons. Il est
souvent difficile de contrôler la validité des hypothèses de normalité et d'égalité des variances
(données peu nombreuses) ; Il est souvent préférable de tenir compte de l'ensemble des
informations dont on dispose a priori au sujet des catégories de variables. De même
l'hypothèse d'égalité des variances est secondaire lorsque les effectifs sont égaux. Quand les
différentes conditions ne sont pas satisfaites, on peut essayer de s'en rapprocher en essayant
de normaliser ces données en leur substituant une variable auxiliaire (par exemple : log de X).
Si cette façon de faire ne donne pas satisfaction, on utilisera les tests non-paramétriques.
5.3.7. Annexe
Vocabulaire de l’ANOVA
Ligne Colonnes
Variables dépendantes Variables indépendantes
Variables à expliquer Variables explicatives
Variables catégorielles, Variable expérimentale,
variables qualitatives, condition expérimentale,
variables nominales, variables traitement
de classification
Variables endogènes Variables exogènes
Individus échantillons, Groupes,
Traitements
Résidus Facteurs
Une seule variable Plusieurs colonnes
Variance intra-groupe Variance inter-groupe
(concerne la variation induite (concerne la variation induite
par les différents individus par les différents échantillons
constituant un groupe = = comparaison des effets des
colonne) = variance résiduelle colonnes) = variance inter-
traitement
n = nombre d’individus dans k = nombre d’échantillons à
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]
ANALYSES DE VARIANCE - ANOVA
un échantillon comparer
SCE résiduelle SCE factorielle
http://www.cons-dev.org/elearning/stat/parametrique/5-3/5-3.html[26/04/2018 07:48:05]