Sunteți pe pagina 1din 124

Plan du cours

Introduction gnrale : rappels fondamentaux sur la dmarch conomtrique Chapitre 1 : Le modle linaire deux variables et plusieurs variables Chapitre 2 : LAnalyse Factorielle des correspondances A.F.C Chapitre 3 : LAnalyse Composantes Principales A.C.P en

BIBLIOGRAPHIE JOHSSTON (J.), mthodes conomtriques, tome 1 et tome 2, Paris, 1985. PAULRE (B.), la causalit en conomie, collection des sciences des systmes, Lyon, 1985. SALVATORE (D.), conomtrie et statistiques appliques, New York, groupe Mc Graw-Hill, 1985. ARTUS (P.), modlisation macroconomique, Economica, Paris, 1986. BENZECRI (J.-P.), pratique de l'analyse des donnes, Dunod, Paris, 1986. GAGOU (A.), modlisation par la mthode de Box et Jenkins, thse de doctorat, universit d'Aix-Marseille, 1986. DORMONT (B.), introduction l'conomtrie des donnes de panels, Edition CNRS, Paris, 1989. CIRAUD (R.) et CHAIX (N.), conomtrie, Economica, Paris, 1989. MOUCHOT (C.), statistique et conomtrie, Economica, Paris, 1991. BATOLA (L.), statitiques et conomtrie, Masson, Paris, 1990.

INTRODUCTION Rappels sur la dmarch conomtrique - Les systmes conomiques sont souvent difficiles comprendre car ils font appel la science sociale. - Pour cerner cette ralit, les thoriciens ont tent de dterminer les lois qui les rgissent : construction et estimation d'un ensemble de modles qui peuvent apprhender et formaliser les liaisons, les interactions et les relations entre plusieurs variables. Exemple : formuler des quations entre des grandeurs conomiques. - Le rle des mathmatiques et des statistiques est donc primordial. - Exemple de grandeurs conomiques pour lesquelles on cherche comprendre le comportement et le fonctionnement : les agrgats macro-conomiques globaux (masse montaire, inflation, emploi, PNB, etc.), les secteurs d'une conomie donne (production automobile, aronautique, situation de la rcolt cralire, etc.). - Autres types de grandeurs : phnomnes sociaux, politiques (sondage d'opinion et campagne lectorale), personnels, etc. - Les thoriciens font ce genre de recherches dans un double objectif :
3

prvoir la ralit conomique et sociale; * tester la porte et la validit des thories conomiques. 1- dfinition de l'conomtrie Branche qui traite des modles alatoires et de la dcision. Elle se base sur l'observation et la vrification chiffre (variable quantitative ou qualitative) pour expliquer la relation entre les grandeurs conomiques : vrifier l'existence de liaisons entre les agrgats, mais aussi et surtout, dtecter et prciser la forme correcte de ces liaisons. L'conomtrie est aussi la validation empirique des donnes thoriques. Etapes de la dmarche conomtrique : * proposer un certain nombre de modles rapprochs de la ralit par des thoriciens; * les soumettre des conomtres pour les mathmatiser; * le rejet ou le maintien des dits modles (pour des fins de prvisions) dpend d'une panoplie de tests statistiques et conomtriques.
4

La dmarche conomtrique peut se schmatiser ainsi Hypothses sur les variables Modle thorique propos Traitement conomtrique Acceptation ou rejet du modle

Observations chiffres 2- Concepts et terminologie - Economtrie : expliquer des phnomnes conomiques par plusieurs autres variables. - Selon la thorie conomique, la relation existant entre plusieurs variables est de la forme : Yt = f(xt, zt,..), exemple : I = f(E, R, Ex, L, etc.). * Avec, I : le niveau de l'investissement; * E : l'pargne; * R : le revenu;
5

* Ex : l'exportation; * L : la lgislation en vigueur. - Ncessit d'intervenir le facteur temps : modles dynamiques. Exemple, pour les variables C et R, on peut dire que la Ct = f(Rt), surtout court terme. - Ce type de formulation, Yt = f(Xt) n'explique pas rellement la nature de la relation entre les deux variables X et Y. Donc : faire intervenir d'autres types de variables ct de Xt. - La relation entre les phnomnes expliquer et explicatifs est dans la quasitotalit des cas de type linaire : yt= a + bxt ou du type exponentielle multiplicatrice, qui peut devenir linaire en utilisant le logarithme : Si yt = xat* zbt, alors log yt= c + a log xt + b log zt. - La relation entre les variables expliquer et explicatives n'est pas stricte, mais plutt stochastique (alatoire). - Un terme rsiduel sera toujours prvu pour faire face aux variables non dclares. Donc: yt = f(x1t, x2t, x3t, x4t,.xnt+ t) yt = a1x1t+ a2x2t+ a3x3t+ a4x4t++anxnt+ t

Terminologie Variable y
- variable explique - variable endogne - variable dtermine - variable dpendante variable variable variable variable

Variable x
explicative exogne prdtermine indpendante

- pondrations Priode - coefficients de d'observation rgression fixe

a2

- terme rsiduel - rsidu - bruit - perturbations

REMARQUES : Ces modles linaires qui cherchent apprhender les relations entre variables sont dits des modles de rgression. - rgression simple : si l'on cherche expliquer une seule variable. Exemple : Ct = a + bRt + t; - rgression multiple si plusieurs variables interviennent en mme temps pour
7

expliquer un phnomne. Exemple : Et = a + bEt + cPEt + dPPt + eSGt + t .E : environnement international; .PE : politique conomique; .PP : pouvoir publics; .SGE : situation gographique. Le terme (erreur) intervient pour

rsumer l'impact de toutes les autres variables qui sont omises. Celui-ci dpend de : .l'erreur d'observation sur les variables X et Y; .la priode d'observation. puisque l'objectif de toute tude conomtrique est d'laborer des modles efficients servant de prvision fiables, on peut aussi travailler sur des variables retardes (yt-1, t-1, x1t-1).

CHAPITRE I : LE MODELE LINEAIRE A DEUX ET A PLUSIEURS VARIABLES I Concepts de base du modle linaire gnral - La reprsentation graphique de la distribution des ouvriers, par exemple selon l'age et le salaire met en relief l'existence d'une liaison statistique entre ces variables. Pour prciser la forme de cette liaison, on trace et on dtermine la courbe de rgression. Mais pour mesurer son intensit, il faut calculer le rapport de corrlation (matrice de corrlation). A/ Ecriture du modle conomtrique linaire - Considrons (n+1) variables dans le temps, l'une note y et les autres xi (i = 1, 2,..,n). Ces grandeurs peuvent tre des vnements, des
9

indicateurs conomiques, sociaux, etc. - Ces (n+1) variables sont gnralement mesures pendant t priodes (souvent l'anne) et on dispose, de ce fait de t observations de ces valeurs. - Supposons qu' travers l'histoire, une analyse thorique passe a fait tablir une relation causale et linaire entre les valeurs des xi et celles de y pour chaque priode :
yt = a1x1t+ a2x2t+ a3x3t+ a4x4t++anxnt+ (rgression simple ou b+t multiple) = aixit + b+t - Ce modle une seule quation et plusieurs variables comporte ncessairement un rgressant (y) et n rgresseurs. - Ce modle s'appelle aussi rgression linaire de y en x1, x2, xn, les paramtres (coefficients) ai (i = 1, 2,..,n) sont nommes coefficients de rgression de y en xi.
10

- Le terme rsiduel t (choisi d'une manire alatoire) peut tre interprt de la faon suivante : * l'chelle de l'interprtation va nous reprsenter conomique, t l'ensemble des raisons pour lesquelles la formule yt= aixit + b+ n'est pas assure de faon stricte et srieuse. Ces motifs peuvent tre par exemple: la non linarit stricte de la relation; l'influence de l'impact sur y des variables autres que xi; les erreurs commises lors de la mesure des grandeurs yt et xit. - La prise en compte de tous ces facteurs nous permet de dire que ces modles conomtriques se basent beaucoup plus sur l'approche de l'approximation. Mais, la relation linaire ne pourra tre accepte que si les termes rsiduels t sont suffisamment petits. - Les coefficients ai et b sont dits les vraies valeurs des paramtres du modle. - Ces vritables valeurs seront toujours (comme les rsidus) inconnues : il s'agit pour la dmarche conomtrique de fournir des estimations rigoureuses pour ces coefficients.
11

- La variable explique et les variables explicatives sont observes t fois. La meilleure faon qui permet de visualiser toutes ces observations est l'criture matricielle : y1 . . . yi . . . yt X11.xn1 . . . x1i.xni . * . . x1txnt a1 . . . aj . . . an e1 . . . ei . . . en

Cela pourra s'crire encore:

Y = X * A+ e REMARQUES
1- La relation entre les variables du modle conomtrique est dnomme corrlation; celle-ci peut, parfois, entraner un effet de causalit : en effet, partir du moment o l'on suppose que la connaissance des variables xi gnre celle de y, on peut
12

construire un modle causal : {xi} y; le modle fourni dtermine y; 2- Le terme constant b est, dans la majorit des cas, diffrent des ai : sa signification conomique est faible, mais sa flexibilit (variabilit) est grande; 3- Le modle suppos doit tre formul partir d'hypothses thoriques liant les variables tudies, et c'est, d'ailleurs, la qualit de l'estimation obtenue qui confirmera ou infirmera ces hypothses; 4- Le modle linaire peut tre de deux ou plusieurs variables, d'une ou de plusieurs quations.

II L'estimation du coefficient de rgression a et b : le principe de l'ajustement linaire par la mthode des moindres carrs ordinaires Les paramtres de rgression et la constante ne peuvent tre qu'estims pour donner l'image la plus fidle que possible de la ralit.
13

Supposons qu'une relation entre la consommation (rgressant) et le revenu (rgresseur) est de la sorte : yt = xt + + t. graphiquement, on notera : Y (c)

- il faut essayer d'ajuster et de tracer une droite qui soit proche de tous ces points. C'est--dire minimiser les carts entre les points de nuages et la droite trace. Celle-ci est la droite de rgression : il faut dterminer la meilleure.

14

- c'est la mthode des ordinaires (MCO) qui minimiser les carrs des la droite d'ajustement ou

moindres carrs nous permet de carts (distance) de rgression.

Expos de la mthode des MCO


yt = xt + + t yt = xt + sera alors le modle estimateur de yt et seront donc, les estimateurs de et , il s'agit alors de calculer et . - considrons la droite d'quation :

15

yt = xt + + t. Calculons la valeur des carts des points observs la droite, mesurs paralllement l'axe des ordonnes : t = yt - - xt La somme de ces carts est gale : S = t = (yt - - xt)2 Y

- La droite des moindres carrs correspond aux valeurs des coefficients et qui

rendent minimum la quantit (S). Ce minimum est obtenu en galant zro les drives partielles de S par rapport et . Il faut, tout d'abord,
16

rechercher pour un fix, la valeur de qui rend S minimale.

connues; H2- E(t) = 0. Cela veut dire que chaque perturbation a une esprance mathmatique nulle. Autrement dit, elle est centre l'origine. Si alors les rsidus ne sont pas centrs l'origine, cela pourrait provenir de l'omission d'une ou plusieurs variables explicatives;

Les hypothses de la mthode des MCO H1- Les variables xt sont, l'inverse des t non alatoires; elles sont donc

H3- V(et)= 2et= constante. Cela veut dire que les carts (erreurs) yt yt qui correspond et ne doivent pas disparatre dans le temps. H4- La normalit des rsidus. Ainsi, la population doit tre suffisante pour que les rsidus puissent suivre une loi normale de paramtre 0 et 2 :
2 N(m, )
17

N(0, 2et).

perturbations ont mme variance, elles se dispersent toutes de manire gale autour de leur valeur moyenne. Donc, on dit qu'elles sont homoscdastiques. En effet, la condition de non corrlation des rsidus est matrialise par : Cov (et, ej) = 0 et ce i j | i, j = 1,..,n H6- La matrice X est certaine. Cela veut dire que les observations ralises sur les variables explicatives le sont sans erreur. Cela se justifie surtout pour le modle linaire K variables (rgression multiple).

H5- Les rsidus sont non corrls entre eux. C'est la proprit d'homoscdasticit des perturbations. Ainsi, E(e2t) = 2 et ce t = 1, 2,n. Les

Calcul des estimateurs

- Nous avons yt = 0 + xt + t (t = 1,..,n). - Il s'agit d'estimer 0 et . - En gnral, on ne peut pas trouver exactement les valeurs des paramtres 0 et qui restent toujours des inconnus. - On peut noter aussi qu'il y a toujours une diffrence entre 0 et et leurs estimateurs 0 et . Nous avons alors : yt = 0 + xt
18

- Il y a une diffrence entre yt et yt. diffrence que l'on appelle rsidu, et que l'on peut dsigner par et. - Nous pouvons, donc, crire :

valeurs relles de l'chantillon (mais que l'on cherche estimer). Pour n priodes, la relation (1) sera : (y1 - 0 x1) = e1 (y2 - 0 x2)= e2
. . . . . . . .

yt yt = et, ou : (1) yt - 0 - xt = et, ou : yt = 0 + xt + et Il faut remarquer que yt et xt sont ici des

(yn - 0 xn) = en
La mthode des moindres carrs ordinaires consiste trouver les valeurs de 0 et telles que la somme des valeurs absolues des rsidus soit minimale. Un rsidu gal + 2 est trait sur le mme pied d'galit qu'in rsidu gal 2. Si on appelle cette somme des rsidus, on aura les dtails suivants :
19

cela sera gal aussi : (y1 - 0 x1)2 + (y2 - 0 x2)2 + + (yn - 0 xn)2 Dans ce cas, yt et xt sont des valeurs de l'chantillon et sont connues. 0 et sont des inconnus qu'il faut calculer.

e21 + e22 + e23+ + e2n

Nous savons que la valeur devient minimale si l'on peut raliser deux principales conditions :

- drives premires de par rapport 0 et sont toutes deux nulles (condition du premier ordre); - drive seconde par rapport est positive (condition du second ordre).

Aprs dmonstration et calculs, on aura :

20

= y x
Et : Donc :

( yt y)( xt x) = ( xt x)2

Et :

( yt y)( xt x) = y x 0 ( xt x)2

21

Illustration (voir exercice n7 de la srie d'exercices n1) - Premier cas : rgresser y par rapport x1.

Coefficient de corrlation linaire simple :

Yt = a0 + a1x1 + t

cov( x , y) 1 r = x1y * y x1 cov( x , y) =1n( x x)( y y) i i 1 2 = 1n( x x) x1 i 2 y = 1n( y y) i

22

Tableau des calculs

x = 6.07 y =17.71
Observations 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total yt 12 14 10 16 14 19 21 19 21 16 19 21 25 21 248 xt 2 1 3 6 7 8 8 5 5 8 4 9 12 7 85 (xt-x)2 16.56 25.70 9.42 0 0.86 3.72 3.72 1.14 1.14 3.72 4.28 8.58 35.16 0.86 113.72 (yt-y)2 32.60 13.76 59.44 2.92 13.76 1.66 10.82 1.66 10.82 2.92 1.66 10.82 53.14 10.82 226.8 (xt-x)( yt-y) 23.24 18.81 23.67 0 -3.45 2.49 6.35 -1.38 -3.52 -3.30 -2.67 9.64 43.23 3.06 116.17

Estimer les paramtres a0 et a1 :

( yt y)( xt x) a= 1 ( xt x)2
23

=116.17 =1.02 113.72 a = y a x 0 1 a =17.71 (1.02*6.07) 0 =11.52


Donc :

ou :

Yt = 11.52 + 1.02x1 + t
de corrlation

Calculer le coefficient linaire simple :

Yt = 11.52 + 1.02x1

cov( x , y) 1 r = x y x1y 1 1 1 = 14(116.17) * 1 1 14(113.72) 14(226.8)


= 0.72 = 72% coefficient de dtermination; r2 = (0.72)2 = 0.52 = 52%
24

Autre manire pour calculer r2(R2)

On a :

( yt y) R2 = r 2 = ( yt y)2 t 2 =1 ( y y) 2 t

y =11,52 +1,02 x t 1t

25

t
1 2 3 4 5 6 7 8 9 10 11 12 13 14 total

yt
12 14 10 16 14 19 21 19 21 16 19 21 25 21

yt
13.56 12.54 14.58 17.64 18.66 19.68 19.68 16.62 16.62 19.68 15.60 20.7 23.76 18.66

t 2 = et 2
2.43 2.13 20.98 2.69 21.72 0.46 1.74 5.66 19.18 13.54 11.56 0.09 1.54 5.48 111.20

et
1.56 1.46 4.58 1.64 4.66 0.68 1.32 2.38 4.38 3.68 3.40 0.30 1.24 2.34 00.00

26

111,21 R =1 226,8 = 0.52 = 52%


Effectuer le test de Student permettant de se prononcer sur la participation de x1 l'explication du modle : Soit Ho =a1=0 Le seuil de signification le plus utilis est =0,05, soit un risque de rejet tort de H0 de 5%.

X m = a1 a1 a1 a a 1 1 suit une loi de Student n 2 DL a1


Sous l'hypothse H0, cette relation devient :

27

a 0 a 1 = 1 = t loi de Student n 2 DL. 1 a a1 a1 t est appel ratio de Student a1


Nous avons dj calcul a1, il convient, prsent, de calculer a1. Or, nous avons dj soulign que :

2 ou v(a ) = a1 1

( x x) 2 t

Nous avons : ( xt x)2 =113,72 t


Nous savons aussi que l'estimation de la variance de l'erreur (2), note 2 est gale :

2 = 1 et 2 n2

e 2 2 = t n2 o et est le rsidu de l 'estimation (et = yt yt )

28

A/ Calcul de yt et de et (voir tableau de la question prcdente)

yt = a + a xt 0 1 soit et = yt y t e =y y 1 1 1 e =y y 2 2 2 etc....

D'aprs le tableau 2 de la question prcdente, on obtiendra et =0 et2 = 111,20 et et2/14, c'est dire la somme moyenne ou encore et2 = 7,94 B/ Calcul de l'estimation de la variance de l'erreur et de l'cart-type du coefficient de rgression L'estimation de la variance de l'erreur est donc gale :

2 et 2 = = 111.2 = 9.27 n 2 14 2

Ce qui nous permet de calculer la variance estime de a1 :


29

= 9.27 = 0.08 a1 2 113.72 ( x x) t soit = 0.28551 a1 =

C/ Calcul du ratio de Student et rgle de dcision Nous savons que

est distribue selon une loi de Student n-2 DL. La rgle de dcision pour un seuil = 0,05 est la suivant :

t = t at at

si t = at

1 >t

On rejette l'hypothse H0; le coefficient est alors significativement diffrent de 0 (on accepte a10); la variable explicative x1 est donc contributive l'explication de la variable y.
30

at

c n2

0.025

si par contre : t = 1 < t at c n2 at on accepte l 'hypothse H . 0

0.025

Le coefficient a1 n'est, donc, pas significativement diffrent de 0 (on accepte a1= 0), la variable explicative x1, n'est donc pas contributive l'explication de y. Dans notre exercice, on a :

et

t = 1 = 1.02 = 3.57 a1 1.28551 a1 0.025 t =t n2 2 c 14 2 c


c 12 0.025 = 2.179

=t

On voit trs bien que t>au tc, donc on rejette H0. Donc a1 est bien 0. X1 contribue l'explication de y. Effectuer le test de Fisher permettant de dterminer si la rgression est globalement significative
31

Nous savons que : Fc = R2/n-1

F c =

k 1 (1 R 2 ) (t k )

R2

k= nombre de rgresseurs t= nombre d'observations dans notre exercice :

F c =

k 1 (1 R 2 ) (t 2)

R2

si Fc>F0.05t k-t, t-k (DL), nous rejetons l'hypothse H0 qui signifie que a1= a2= a3=.= ak= 0 si, par contre, Fc<F0.05t k-t, t-k (DL), on accepte l'hypothse H0, c'est--dire le modle n'a pas de signification dans son ensemble. Dans notre exercice :

F c =

0.52 k 1 = =13 (1 0.52) (1 R 2 ) (14 2) (t 2)

R2

Remarque On peut aussi remarquer que pour le modle de rgression simple, nous avons galit entre
32

le coefficient de dtermination et le carr du coefficient de corrlation linaire simple.

R2 r2 F c = = = (t)2 (1 r 2 ) (1 R 2 ) (t k ) (t k )
dans notre exercice, nous avions : tc =3.57, donc (tc)2 = 13 Rgle de dcision : On a Fc =13 et F0.05t 1 et 12 DL= 4.75 Donc, Fc > Ft. cela veut dire qu'il faut rejeter l'hypothse H0, a1= a2= a3=.= ak sont bien diffrent de 0, donc la variable explicative x1 est significative. Construire le tableau d'analyse de la variance pour vrifier les rsultats obtenus Il faut, donc, connatre que :

SCE = ( yt y)2 SCR = et 2 et SCT = ( yt y) 2


Nous savons que :

R2 =1

et 2 ( yt y)

=1 SCR SCT 2
33

R2 = r2 =0.52, la connaissance de SCR = =111.20 permet de dterminer SCT = 231.67 car 1-(111.20/SCT) = 0.52. Tableau d'analyse de la variance
Source de variation X Rsidu Total Sommes des carrs SCE = 120.47 SCR = 111.20 SCT = 231.67 Dl 1 14 2 14 1 Carrs moyens 120.47 9.26

F calcul =

1 =120.47 =13 SCR SCR 9.26 12 (t k ) 1

SCE

SCE

34

I-

LE COEFFICIENT DE DETERMINATION ET LE COEFFICIENT DE CORRELATION

Nous savons trs bien que la variation de Y autour de la moyenne est subdivise en deux partie : une partie explique par la rgression et une partie rsiduelle non explique.

Donc : y = y + t t t 2 2 2 y = y + + 2 y t t t t t 2 2 + 2 yt = yt t

tend vers zro

Le coefficient de dtermination :

35

y2t 2= R y2t

2 Aussi R =

2 ( y t y) ( y t y) 2 cas des var iables centres

est le rsultat de la variabilit explique sur la variabilit totale de Y.

y 2t 2t t =1 donc R2 = y 2t y 2t dans le cas des variables centres: 2 ( y y)2 2t t t =1 R2 = ( y y)2 ( y y)2 t t

36

Ce quotient nous permet de juger de la qualit de l'ajustement d'un modle. En effet, plus la variance explique est proche de la variance totale de Y, meilleur est l'ajustement du nuage de points par la droite des moindres carres. est appel le coefficient de R2 dtermination, et R le coefficient de corrlation multiple. Dans le cas particulier du modle de rgression une seule variable explicative, il est gal au coefficient de corrlation simple entre X et Y. dans ce cas, il est not (r).

INTERPRETATION

Le coefficient de dtermination indique le pourcentage de variance explique par la rgression, il mesure la qualit de l'ajustement linaire. 0<R2<1 - Si R2= 0, il y a indpendance totale : aucune liaison entre x et y. Ceci implique que l'quation de rgression en prsence n'explique en rien et en aucun cas la variabilit de Y. - Si R2= 1, cela veut dire que tous les points (x, y) appartiennent la droite de rgression, c'est--dire le rsidu est nul et donc :
37

Pour le coefficient de corrlation :

y 2t

2t = 0

R= R2
-1<R<1 R<0 que X et Y varient dans le sens

inverse; R>0 que X et Y varient dans le mme sens R=1 ou R= -1 une corrlation parfaite entre X et Y R =0 aucune relation entre X et Y X et Y sont deux variables indpendantes.

La corrlation :
Le coefficient de corrlation linaire r mesure exclusivement la caractre plus ou moins linaire du nuage de points forms par les variables X et Y.

38

rxy = cov( x, y) x y cov( x, y) =1n( x x)( y y) i i

x = 1n( x x)2 i
2 y = 1n( y y) i
1 r 1

r sera toujours compris entre 1 et 1 Le Coefficient de dtermination est gal : r2 = R2. Si r=1 cela serait quivalent l'existence d'une corrlation exacte entre x et y, autrement dit : axi + byi + c = 0 est une droite. La matrice de corrlation, par contre rsume la structure des dpendances linaires entre les P valeurs observes.

CAS DE LA REGRESSION LINEAIRE MULTIPLE


39

- Pour le modle linaire gnral ou la rgression multiple, on note coefficient de dtermination :

2t =1 e 2t R2 =1
y 2t

y 2t

Dans le cas des variables centres : 2 e t R2 =1 2 ( yt y)

REMARQUES
1-

Le coefficient de dtermination multiple varie entre 0% et 100%. Dans ce dernier cas, tous les points appartiennent au plan ou l'hyperplan de rgression. Ce coefficient donne une ide assez correcte de l'efficacit de l'ajustement par la mthode des MCO. Cependant, comme sa valeur a tendance augmenter avec le nombre de variables explicatives (il est
40

gal 100% lorsque le nombre de variables explicatives est gal au nombre d'observations), les conomtres ont introduit un coefficient de dtermination corrig ou ajust: 22. En effet, lorsque le degr de libert est faible, il convient de corriger le R2 afin de tenir compte du relativement faible nombre d'observation compar au nombre de facteurs explicatifs par le calcul d'un R2 "corrig", not 22.

2 R =1

n 1 (1 R2) (n k 1)

2- Le coefficient de corrlation multiple (cas de rgression linaire multiple) est gal :

R = Y X ( X X ) Y Y

X Y

3- Dans le cas d'un modle o le nombre d'observation est gal au nombre de variables
41

explicatives (degr de libert gal 0), le R2 est gal 1, c--d: 100%. Cependant, le pouvoir explicatif de ce modle est nul.

42

TABLEAU D'ANALYSE DE LA VARIANCE


1- Cas d'un simple modle de rgression

Nous savons que:

yt yt = et et que : 2 2 2 ( y y) = ( y y) + e t t t
CAD: SCT (somme des carrs totale) = SCE(somme des carrs expliques) + SCR(somme des carrs des rsidus). La variabilit totale (SCT) est gale la variabilit explique (SCE) + la variabilit des rsidus (SCR). D'o le tableau d'analyse de variance suivant :
Source de var iation Sommes des carrs X Rsidu Total SCE = ( yt y)2 SCR = ( yt y)2 SCT = et 2 Dl 1 t k t k +1 Carrs moyens SCE SCR 1

(n 2)

43

Fcalcul =

SCE SCR

(t k )

O F suit la loi de Fischer 1 et n-2 degr de libert. Nous pouvons aussi crire cette formule en fonction du coefficient de dtermination :

R2 F= (1 R 2 ) (t k )
La statistique F est le rapport de la somme des carrs expliqus par xt sur la somme des carrs des rsidus. Chacune de ces sommes tant divise par son degr de libert respectif. Aussi, si la variance explique est significativement suprieure la variance rsiduelle, la variable xt est considre comme tant une variable rellement explicative.

Si F > F

0,05

t 1, n 2 CAD F = F (k 1, t k ) DL t

nous rejetons l'hypothse d'galit des variances, la variable xt est significative; dans le cas contraire, nous acceptons l'hypothse
44

d'galit des variances, la variable xt n'est pas explicative de la variable yt. 2- Cas d'un modle de rgression multiple (modle linaire gnral) Nous savons que la rgression est juge significative si la variabilit explique est significativement diffrent de 0. Tableau d'analyse de la variance dans le cas RLM :
Source de var iation Sommes des carrs x , x ,.....x k 1 2 Rsidu Total SCE = ( yt y)2 SCR = et 2 SCT = ( yt y)2 Dl k t k 1 t 1 Carrs moyens SCE SCR k

(t k 1)

D'o :

F=

y) 2 ( yt et 2

k =

R2 (1 R 2 )

(t k 1)

(t k 1)

L'hypothse de normalit des erreurs implique que sous l'hypothse H0, F suit la
45

loi de Fischer (rapport de deux Chi-deux). Nous comparons donc ce F calcul Ft (thorique) k et (t-k-1)DL : si F > F, nous rejetons l'hypothse H0, le modle est globalement explicatif. Dans le cas contraire, on retient H0, le modle pris dans l'ensemble n'est pas explicatif.

46

II-

LES PRINCIPAUX TESTS STATISTIQUES A- Test d'valuation globale ou test de Fischer Snedecor
Ce test nous permet de connatre si le modle a une signification globale, c--d : si l'introduction des variables x1,..,xk permet de bien expliquer l'endogne (y), autrement dit, il teste la signification simultane des variables exognes (x1,..,xk) est-ce qu'elles sont acceptes dans l'ensemble ou pas? Il s'agit de tester l'hypothse H0 : 1 = 2=3=..=k=0 L'hypothse alatoire consiste comparer les valeurs calcules F aux valeurs tabules (Ft) sachant que :

F =

Avec K = nombre de regresseurs de Y et t = nombre d'observations totales. Si F(c) > Ft, on rejette l'hypothse H0, c--d: les variables xt sont rellement explicatives; Si F < Ft, on accepte l'hypothse H0 au seuil de signification %. C--d : toutes les variables xt ne sont pas rellement explicatives.
47

k 1 et Ft = F (k 1, t k ) DL 1 R2 t k

R2

REMARQUE
Les degrs de libert correspondent au nombre de valeurs que nous pouvons choisir arbitrairement (exemple : pour la variabilit totale, connaissant t-1 valeurs, nous pouvons en dduire la tme puisque nous connaissons la moyenne y ).

B- Le Test d'valuation partielle ou test de Student


Il permet de se prononcer sur la signification de chacun des paramtres. H0 : k = 0 signifie que l'exogne (xt) n'a aucune influence sur l'endogne yt. D'une manire gnrale, il faut contrler l'hypothse alternative Hi : k 0.

t = k ou k car T = X m

2 2 xt 2 et V ( ) = AvecV ( ) = 2 2 n ( x x) ( x x) t t
Si t> t calcul, on rejette l'hypothse H0. Si t< t calcul, on accepte l'hypothse H0.
48

L'ide gnrale est d'tablir un intervalle de confiance pour chacun des paramtres compte tenu d'un seuil de confiance %, ce qui nous permet de cerner la valeur des paramtres k.

= t ( DL) t k

49

C- Le Test d'autocorrlation rsidus ou des erreurs D.W


H5 E(t, t)=0 Si t t

des

Lorsque H5 est non respecte (non vrifie), la matrice E() est diffrente de 0, donc il y a autocorrlation des erreurs. Nous sommes en prsence dune autocorrlation des erreurs lorsque ces derniers sont lis par un processus de reproduction : - il y a autocorrlation positive et - autocorrlation ngative 1-Sources dune autocorrlation des erreurs - Absence dune variable explicative importante dont lexplication rsiduelle permettrait de minimiser les erreurs ; - Une mauvaise spcification du modle : les relations entre la variable expliquer et les variables explicatives ne sont pas suffisamment linaires et
50

sexpriment sous une autre forme que celle du modle estim. 2-dtection de lautocorrlation des erreurs cest le test du Durbin Waston (D.W) qui permet de dtecter une autocorrlation des erreurs dordre 1 selon la forme : t = t-1_ + vt avec vt (0, v2) Le test dhypothse faire est le suivant : H0 : = 0 H1 : O (ou <0 ou >0).Pour tester nous lhypothse nulle H0,
n (et et 1)2 DW = t =2 n 2 et t =1 calculons la statistique de D.W. O et sont les rsidus lestimation du modle.

de

51

De part sa construction, cette statistique DW varie entre 0 et 4. Afin de tester l'hypothse H0, D et W ont tabul les valeurs critiques de DW au seuil de 5% en fonction de la taille de l'chantillon n et du nombre de variables explicatives k. La lecture de la table permet de dterminer deux valeurs d1 et d2 comprises entre 0 et 2 qui dlimitent l'espace entre 0 et 4 selon le schma suivant : Interprtation du Test du DW et rgle de dcision

>0 ? =0 =0 ? <0 Selon la position du DW empirique dans cet espace, nous pouvons conclure : si d2<DW<4-d2, on accepte l'hypothse H0, donc = 0, il n'y a pas d'autocorrlation des erreurs;
52

si 0<DW<d1, on rejette l'hypothse H0 car > 0, il y a autocorrlation des erreurs; si 4- d1<DW<4, on rejette H0 car < 0, il y a autocorrlation des erreurs; si d1<DW<d2 ou 4-d2<DW<4-d1, nous sommes dans une zone de doute ou d'indtermination quant l'autocorrlation des erreurs. 3-Condition d'utilisation du test DW Le modle en prsence doit comporter un terme constant; Le nombre d'observation doit tre suprieur ou gal 15; Pour les modles en coupes instantane, les observations doivent tre ordonnes en fonction de la variable expliquer.

53

L'HETEROSCEDASTICITE DES ERREURS


Lorsque l'hypothse H3 du modle n'est pas vrifie, il y a donc, htroscdasticit des erreurs. En effet, la variance de l'erreur n'est plus constante, mais sa dispersion varie d'une observation l'autre. On aura donc :

2 2 non pas E ( t ) = t 2 mais E ( ) E ( ) E ( ) ....... E ( t ) 1 2 3


Soit le modle linaire gnral Y = Xa + pour lequel l'hypothse {E(2) = 2t} n'est pas vrifie. La matrice des erreurs est alors :

E ( ) 11 t = E ( ) = E ( 21)

E ( ) 1 2 E ( ) 2 2

E ( n ) 1 E ( 2

n) n)

E ( n ) 1

E ( n ) 2
54

E ( n

2
=

0 0

0 2 0

Les variances et les cart-types des erreurs ne sont plus constants sur la 1re diagonale, mais leur dispersion varie d'une observation l'autre. Dtection et Correction du phnomne d'htroscdasticit Il n'y a pas une mthode unique pour corriger l'htroscdasticit. La rgle gnrale consiste dterminer une transformation concernant les donnes - de la variable expliquer et des variables explicatives - pour se ramener un modle variances constantes (Homoscdasticitique).

55

A. Tests de dtection de l'htroscdasticit 1- Test de GOLDFELD-QUANDT Ce test n'est valable que si le nombre d'observation est important et que si l'une des variables est suppose la cause de l'htroscdasticit. Ce test est propos en trois tapes : Etape 1 : classer les observations en fonction de la variable explicative Xi ; Etape 2 : omettre C observations centrales. On choisit par hasard C observations se trouvant au milieu (centre) de l'chantillon. ces C observations sont exclues de l'analyse. La valeur de C doit tre peu prs gale au quart du nombre d'observations totales. NB. Il ne faut prendre que les parties entires, sans virgule ; Etape 3 : rgressions sur les deux sous chantillons et ralisation des tests. Illustration: exercice n1 de la srie n4 Dans cet exercice, C = 33/4 = 8 observations.

56

Premier chantillon: j = 1,..11 Yj = 1110,870 + 0,814xj + ej (8,29) n = 11 R2 = 0,88 SCR1 = e2j = 1089638 (.) = t de Student ddl1 = n-2 =9

Deuxime chantillon:j = 20,..30 Yj = 4286,957 + 0,649xj + ej (4,26) n = 11 R2 = 0,67 SCR2 = e2j = 2616812 (.) = t de Student ddl2 = n-2 =9

Sous l'hypothse H0 d'homoscdasticit, le rapport :

SCR 2 F =

ddl 2616812 2= = 2,40 1089638 SCR 1 ddl 1

( suit une loi de Fisher ddl et ddl deg r de libert ) 1 2 0.05 F = 2,40 Ft = 3,18 9 , 9dl
Donc l'hypothse H0 d'homoscdasticit est retenue, le modle n'est donc pas htroscdastique.

57

Exercice n1 de la srie n5. Procder au test de dtection d'une ventuelle htroscdasticit : test de Goldfeld-Quandt Etape 1 : ordonner les observations en fonction du temps de vrification. Yt 4 5 6 8 8 6 ----38

T 1 2 3 4 5 6 ----30

Xt 4 4 4 4 4 3,5 ----0,5 C de

Etape 2 : oublier arbitrairement observations existant au centre l'chantillon. C = partie entire de (30/4) = 8.

58

Etape 3 : rgression sur les deux souschantillons.


Premier chantillon : t = 1,..11 Yt = 16.93 - 2.13xt + et (2.31) n = 11 R2 = 0,8 SCR1 = e2t = 164.66 (.) = t de Student ddl1 = n-2 = 9 Deuxime chantillon:t = 20,..30 Yt = 4.84 - 1.32xt + et (9.23) n = 11 R2 = 0,002 SCR2 = e2t = 872.02 (.) = t de Student ddl2 = n-2 =9

Soit l'hypothse H0 = modle homoscdastique d'homoscdasticit, Le rapport :

ddl 872.02 9 = 5.29 2= F = SCR 164.66 1 9 ddl 1


( suit une loi de Fisher ddl et ddl deg r de libert ) 1 2

SCR 2

F = 5.29 Ft

0.05 9 , 9dl

= 3,18

59

Donc l'hypothse H0 d'homoscdasticit est rejete, le modle est donc htroscdastique. 2- Test de GLEISJER

Soit e = a + a xt + t 0 1 j pour cet auteur, l' htroscdasticit peut tre du type : 2 = k 2 x 2 , ou du type 2 = k 2 x t t t t

ou du type 2

2 x2 =k

3- Test de Breusch-Pagan Les tapes de ce test sont : Nous avons : Y = a0 + a1xt+ut Etape 1: Estimation de ce modle : Y = 24.09 - 4.125 xt+ ut (4.20)

car yt = 24.09 4.125xt


60

NB. Au lieu de travailler l'aide de (Ut) 2, nous allons la remplacer par |Ut|. Soit l'hypothse suivante :
2 H = E (U x , x ,... x ) = E (U 2 ) = 2 0 1 2 k On crit : U : erreur estime de y regresse sur x. U 2 = + x + ....... + x + K K 0 1 1

Au lieu de a, nous sup posons que : U = + x + ....... + x + K K 0 1 1 L' hypothse nulle est alors : H = = = ....... = = 0 K 0 1 2 Si cette hypothse est vrifie, il ya alors hom oscdasticit (var iance de l ' erreur est cons tan te )

Etape 2:

par MMCO et calcul de R 2 Estimation de U

61

Soit

U = + xt + 0 1 t

En utilisant le logiciel E.Views, on aura :

U = 8.09 1.46 xt + t
n = 30 t de student pour xt = 2.55

2 U t

= 0.189

62

Etape 3: Calcul de F

R2 F =

Ut

1 R

2 U 1 t

(n k 1) = 6.54

0.189 (1 0.189)

(30 2) (1, 28) ( k, n k 1) Dl


l'hypothse modle est

F est donc > Ft

= 4.20

Donc, on rejette (homoscdasticit), le htroscdastique.

HO donc

B. Correction de l'htroscdasticit Retenons la forme d'htroscdasticit suivante :

63

2 U t

2x 2 =k

L'application de la rgression pondre par le conduit un modle facteur 1/xt, homoscdastique. Mthode 1:

y a x U t = 0 +a t + t 1x x x x t t t t U 2 t ) = 1 E (U 2 t ) D' o E ( x x 2t t 1 2 = = k2 U x2 t t
Mthode 2: Le Test de Gleisjer a montr une autre relation sous la forme de laquelle l'homoscdasticit peut tre pondre :

2 U t

2x 2 =k

Pour corriger l'homoscdasticit dans ce cas, nous utilisons la rgression pondre (divise) par le facteur (xt)1/2.
64

Avec : ( xt )1/2 = x
donc :

a x y U t = 0 + a t + t 1 x x x x t t t t
t )2 = 1 2 D' o E ( = k2 U x x t t t
Donc le tableau de donnes sera transform de la manire suivante :

65

yt At = xt 2.00 2.50

x 1 1t x t 0.50 0.50

xt x = 2t xt 2.00 2.00

Le modle estim par la MMCO sera la suivant : At = n1 x1t + n2 x2t + t Par le logiciel E.views, on aura : Les coefficients du modle initial sont :

66

a = n = 24.96 0 0 a = n = 4.53 , 1 1

et le mod le estim est donc :

Yt = 24.96 - 4.53 xt + et (2.94) n = 30

67

PRINCIPES DE LANALYSE FACTORIELLE Projection des individus Les coordonnes des points du nuage par rapport aux facteurs sur lesquels la projection est effectue sont faciles calculer en appliquant la forme linaire reliant un facteur aux variables. Les nouvelles coordonnes sont souvent dsignes par "scores factoriels". Le schma suivant donne un exemple de projection dans le plan dfini par les deux premiers axes factoriels. La projection des points-individus permet d'obtenir des groupes. Par exemple, les points 1 et 6 semblent trs voisins. Peut-on en dduire que les individus correspondants ont des rponses presque identiques aux questions qui leur sont poses?. La rponse cette question ncessite de prendre quelques prcautions. En effet, les axes obtenus rsument au mieux l'information apporte par l'ensemble des points, mais pas l'information apporte par chaque individu pris isolment. Il est donc possible, comme pour les variables, que certains individus soient mal reprsents par leurs projections sur le premier plan factoriel. Il ne faut pas non plus oublier, pour juger de la proximit de points, les valeurs
68

respectives des quantits d'information restitues par les diffrents facteurs. Ainsi, les points 7 et 8 sont plus proches que les points 8 et 9 car le premier facteur restitue deux fois plus d'information que le second et joue donc un rle plus important dans les distances entre points.
F2 20% .1 .6

.2 .3 F2 .7 .8 40%

.4 .5

.9

Projection de groupes d'individus Quand le nombre d'individus est trop important, les projections ne permettent plus de voir grande chose. Il est alors recommand de projeter les centres de gravit des groupes constitus pour voir si les variables correspondantes sont lies l'analyse.

69

Le schma suivant reprsente la projection des centres de gravit des groupes constitus par classe d'ge sur un chantillon de 1000 mnagres. Prenons, par exemple, les mnagres ges de 18 24 ans. Supposons qu'il n'y en ait que 97 dans l'chantillon de 1000 personnes. Chacune d'entre elles a une projection sur le premier facteur, soit F1 (i). la projection du centre de gravit de la classe est donne par :

1 97 F (i) 97 i=1 1
Toutes les autres coordonnes sont obtenues de la mme faon. Il faut cependant, contrler la dispersion des projections autour des centres de gravit. Avant, par exemple, de conclure que l'ge est trs important en liaison avec le premier facteur (et pas avec le second), il est ncessaire de calculer la matrice des variances-covariances interne chacun des groupes.
F2 20% * 35/44 ans * 55/64 ans * 65 ans et plus * 45/54 ans
70

* 18/24 ans F1

* 25/34 ans

40%

16 mnagres ges de 18 24 ans ont t projetes dans le plan (F1 et F2). Les projections donnes dans les figures suivantes ne permettent pas les mmes conclusions. La distribution de la figure se trouvant gauche permet d'affirmer que la projection du centre de gravit a un sens et que sa position dans le plan factoriel peut conduire une interprtation solide; il n'en va videmment pas de mme pour la distribution de la figure de droite. Si chacun des groupes est concentr proximit de son centre de gravit, alors l'interprtation d'une liaison entre l'ge et le premier facteur est fonde. Cela revient essayer d'interprter les facteurs, ce qui est aussi le but de la projection des variables initiales.
F2 20% F2 20% .

. . .. .
. .
.18/24 ans

.
. .

. . . .
. .

. . . .

. . .
.18/24 ans

F1 40%
71

F1 40%

Projection simultane des individus et des variables Pour dterminer quelles variables sparent les groupes, il serait intressant de projeter la fois, sur le mme graphique, les individus (ou les centres de gravit de certains groupes) et les variables initiales. Il faut faire attention cependant au fait que l'chelle permettant de reprsenter les variables est arbitraire et que la proximit d'une variable et d'un groupe n'a pas de sens. Seule la direction qui reprsente les coefficients de corrlation est importante.

35,44 ans . X'1 X1 -1 +1 F1 40%

72

Sur ce graphique, deux chelles diffrentes sont reprsentes. Pour la premire, X1 a l'air proche du centre de gravit des mnagres ges de 35 44 ans. Mais pour la seconde chelle, X'1 (qui n'est autre que X1) est beaucoup plus loigne. La proximit entre X1 et le point (35/44 ans) n'a pas de sens alors que la proximit de la direction commune de X1 et X'1 avec ce point en a une. Modalits d'application Les domaines d'application de l'analyse factorielle sont extrmement vastes. Les principaux types d'application seront les suivants. 1- Extraction et interprtation des facteurs Une analyse factorielle permet, d'une part, de structurer les variables initiales pour construire un rsum de l'information apporte par l'ensemble de ces variables, d'autre part de dcouvrir, quand ils existent, les variables latentes sous-jacentes aux variables initiales et de les interprter. 2- Structuration des variables initiales Ce type d'analyse permet de slectionner parmi un ensemble important de variables celles qui interviennent le plus dans la description du phnomne tudi. Il est, en
73

effet, possible de ne conserver pour des analyses ultrieures que les variables initiales fortement corrles avec les facteurs les plus importants. Enfin pour une bonne application de la mthode, certaines prcautions doivent tre prises, en particulier en ce qui concerne les variables de dpart : Si les chelles sur lesquelles sont mesures les variables sont trs diffrentes, il est bon de centrer et de rduire les variables (en effet, la variance de chaque variable intervient et les variables prsentant les variances les plus fortes vont tre "avantages" dans l'analyse); Les variables introduites dans l'analyse doivent tre comparables : il n'est pas justifi d'introduire la fois des variables d'attitudes, de comportement d'achat et socio-conomiques. Les axes factoriels obtenus risquent fort de n'avoir aucun sens.

74

CHAPITRE II L'analyse factorielle des correspondances (A.F.C) 1- Objectif : L'A.F.C. vise traiter l'information contenue dans un tableau de contingence ou de dpendance relatif deux ensembles de nature quelconques. On peut dfinir une correspondance entre deux ensembles finis I et J par la donne d'une loi de probabilit Pij sur le produit I*J. Dans la pratique, on ne dispose pas de Pij, mais seulement de la distribution des frquence empiriques fij observe sur une population concrte E. Les lments ou les groupes tudier sont ici en correspondance, c'est--dire ils prsentent des relations entre eux. Ainsi, on peut, par exemple, tudier la correspondance entre les catgories socioprofessionnelles et les principales maladies. Les lments de ces deux ensembles sont pondrs, CAD que le nombre de malades est diffrent pour chaque maladie. Ces
75

frquences de rptition s'interprtent facilement en termes de probabilits. Le tableau de dpendance peut donc tre reprsent dans un espace appropri par un nuage de points affects de probabilits. Rsum : L'AFC a pour objectif d'tudier la proximit et la dispersion des diffrents points du nuage entre eux (les individus, les variables ou les deux la fois). 2- Position du problme a. Donnes brutes Considrons un tableau double entre, o les lignes reprsentent les n lments (les individus ou les observations) d'un ensemble I et o les colonnes reprsentent les m lments (les paramtres ou les variables) d'un ensemble J en correspondance avec I. I = (1,.i,.n) l'ensemble des observations; J = (1,..j,.m) l'ensemble des variables. A tout couple (i,j) I*J (CAD l'intersection d'une ligne i et d'une colonne j) est associ un nombre positif kij. Soit donc k un tableau de frquence (absolues ou relatives) d'association de donnes.
76

1 . . . i . . .

K=

Ensemble J (variables ou paramtres)


J 1jm I K ou X = ensemble I (individus ou observations) 1 2 . . i . . n . . . kij.. . . . k

Soit matriciellement :
k ............k ............k 1j 1m 11 ......................................... ......................................... = k ...........k .............k i1 ij im ......................................... ......................................... k .........k ..............k nm n1 nj
77

K ou X

L'lment kij ou Xij reprsente la mesure du paramtre j pour l'individu i. b. Transformations des donnes initiales : les profils On effectue certaines modifications sur les donnes avant l'analyse, car on veut comparer les profils (comportements) des lignes et des colonnes et non les nombres brutes. On note :

n = nij . j iI et n.. = nij iI , jJ


Le tableau des profils des lignes et alors le suivant :
n 11 n1. .. .. n = i1 n i. .. .. n n1 n n.

n = nij i. jJ

.. ..

n ij n 1. .. .. n ij n i. ..

.. ..

n 1m n 1. .. .. n ip n i. .. .. nnm nn.

.. ..

.. ..

n*m

.. n nj .. .. nn.
78

.. ..

Et le tableau des profils des colonnes est le suivant :


n 11 n n.1 .. .. n 1j n. j .. .. n 1p n .p

.. ..

X :m*n j

n i1 n .1 .. .. n ij .. .. n .j .. .. n ip .. .. n. p

.. ..

n n1 n .1 .. .. n nj .. .. n .j .. .. nnm .. .. n.m

Ainsi donc, dans l'enqute o l'on interroge N personnes rparties dans n villes et villages sur leur m lieux de vacances, on obtient un tableau K ou X ayant la forme suivante :
Lieu de vacances 1. . 2 . . . j . m Localits d'origine 1 2 . . i . . N . . . . . . . . nij. . . . .. ni. . .

K=

n.j
79

On a distingu m lieux de vacances possibles : Agadir, Alpes, Oukaimden.. etc. La dernire, CAD la mme correspond la masse des gens qui ont dclar ne pas tre partis en vacances. Le nombre ni. reflte l'importance de la localit d'origine i et le nombre n.j l'importance du lieu de vacances. Si le nombre ni. est grand, CAD:si beaucoup de personnes interroges proviennent de la localit i (rgion Rbatie par exemple), la ligne i du tableau risque de jouer un rle important dans l'analyse. Pour attnuer les disparits entre taille des localits d'origine, on analyse plutt le tableau des profils des lignes. Chaque ligne i de ce tableau reprsente les proportions d'individus de la localit i ayant choisi les diffrents lieux de vacances. 3- Principe de la mthode Soient les ensembles I et J dfinis plut haut. Si au lieu de considrer le tableau des donnes brutes et le tableau des frquences, on s'attachait plutt au caractre probabiliste de ces donnes, on aboutirait un nouveau tableau : celui des correspondances alatoires des donnes.

80

La probabilit associe au terme Kij est :


si k.. = (i, j )(m*n) k k ij k p = n m ij ij kij i =1 j =1

ij p = ij k..

Les lois de probabilit marginales sont de mme :


m P = p i. j =1 ij n P = p . j i =1 ij avec i = 1,......, n j

avec j = 1,......, m

Pij est donc une estimation probabilit d'association de (i*j).


m kij ki. = P = i. j =1 k .. k.. n kij k. j = P = . j i =1 k .. k..

de

la

Elles vrifient les proprits : m n p =1 ; p = 1 } probabilits conditionnelles i. j =1 . j i=1


D'o le tableau des correspondances ou des probabilits associ au tableau des observations suivant :
81

J 1. . 2 . . . j . .m I 1 2 . . i . . n . . . . . . . . pij. . . . .. . . . . p.j

Ensemble I

pi.

Le tableau des observations peut tre ainsi reprsent par n points Li (i variant de 1 n). Li=(Pi1/Pi., Pi2/Pi. ,.., Pij/Pi. .. Pim/Pi.) Dans un espace m dimensions Rm, chaque point Li tant pondr par la probabilit Pi. .
L1 L2 . .
* * Li * * * Pi. * * *

P1.

A(1)

Ensemble I

Li

Pi.

* n points

Ln

Pn.

On obtient alors le nuage de points pondrs associs l'ensemble I (individus) : A(I) = Li; Pi.
82

4- La distance : le X2 du tableau de contingence Nous savons que la proximit des projections concerne les profils des pointsvariables ou des points-observations (CAD Pij/Pi. ou Pij/P.j). Il reste adopter une distance. Deux individus i et i' de l'ensemble I seront dits proches si le passage de i i' (ou de i' i) a peu d'influences sur la structure de l'ensemble des paramtres J. Cette proximit est traduite par une distance, note d2(i, i'). La distance adopte en A.F.C. pour dfinir la proximit ou la similarit entre i et i' est la distance dite du X2 entre deux distributions (distance associe Pij). Cette distance entre deux sries de frquences se prsente comme suit : 2 P P 2 ' m 1 ij i' j d (i, i ) = P j =1 P. j i. P ' i.

En posant : P P ij = et i ' j = ij P P i' j '. i. i


83

Cette distance matricielle :


' j

s'crit

sous
1 P.m

forme

2 ' (i, i ) =


ij

P .1

i'

P .j


ij

i'

soit encore : d (i, i 2 '


)=


ij

i'

'


ij

i'

La distance d2(i, i') apparat ainsi comme la distance engendre par une forme quadratique dfinie positive de matrice D, dans un espace vectoriel euclidien. Par normalisation des axes, il est possible de rendre unitaire la matrice de la forme quadratique. Dans ces nouveaux axes, l'individu i a pour coordonnes :
M = B , B ,......., B ,..........., B ; i i1 i2 ij im 1 ; avec B = ij ij P .j
84

P 1 ij ou encore : B = ij P P . j i.
La pondration du point i tant toujours Pi. Le nuage de points associs l'ensemble I apparat comme la donne de n points Mi, chaque point Mi tant pondr par la probabilit Pi. Si on dsigne par B(I) ce nouveau nuage de points :
Rm

B(I )= Mi ; Pi.
B(I)
* Li * * Pi. * * * * *

* n points

La distance entre deux points Mi et Mi' est, de la mme faon :


85

m d (M , M ) = B B i i' j=1 ij i' j 2


Soit encore :

d (M , M ) = B B B B i ij i' i' j ij i' j

'

Le nuage B(I) est ainsi dans un hyperplan d'quation :

m P.J Bij = 1 j =1
En effet, d'une part :

m Pij 1 m m 1 ij = P = P Pij = Pi. Pi. = 1 j =1 i. j =1 i. j =1


D'autre part :

m m = P B ij j =1 j =1 . j ij
Et finalement :

m P.J Bij = 1 j =1
86

5- La dtermination du nombre d'axes factoriels Il s'agit d'extraire les axes factoriels du nuage de points-observations Nm dans Rm, de coordonnes :

P ij P P i. . j

j J

Il faut projeter les points du nuage sur des axes (F1, F2,..) de vecteur unitaire (U1, U2,.) de faon maximiser la somme des carrs des distances entre les projections des points-observations sur ces axes factoriels, ou ce qui revient au mme, minimiser la somme des carrs des distances des pointsobservations aux axes factoriels :

c ' est dire min imiser

la quantit

2 n P i. ( d i ) i =1

Soit graphiquement :
Xi1 Xi2 Soit on minimise cette distance

di1 G
Bi1

di2
Bi2

F1 Soit on maximise cette distance


87

Les axes factoriels sont donns par les vecteurs propres de la matrice des variancescovariances des variables. Le facteur li la plus grande valeur propre i sera le premier axe factoriel. C'est le facteur le plus explicatif de la dispersion du nuage de points-observations. On calcule donc le pourcentage d'explication de l'inertie du nuage pour le facteur F1. Ce % varie entre 0 et 1 (la valeur 1 lorsque le point est situ sur l'axe factoriel). Le 2me axe factoriel retenir sera celui qui est associ la 2me plus grande valeur propre, et ainsi de suite. Remarques : 1. Les axes factoriels (ou les facteurs) sont orthogonaux deux deux et sont donc non corrls entre eux; 2. La somme des valeurs propres (i) qui donne l'inertie totale du nuage de points est appele "trace"; 3. De la mme faon qu'on a tudi les proximits entre n points de Rm, on peut tudier les proximits de m points (CAD les variables) dans Rm; 4. En ralit, il y a une grande relation entre les facteurs de Rm et les facteurs
88

de Rn. en effet, l'objectif mme de l'A.F.C. est de reprsenter, sur le mme graphique, dans le plan de deux premiers axes factoriels, les proximits entre les lments de l'ensemble I et les proximits entre les lments de l'ensemble J.

89

CHAPITRE II L'analyse factorielle des correspondances (A.F.C) Cas pratique N1 On veut tudier la rpartition des ges d'une population l'intrieur de l'audience de chacune des radios. En ordonnes figurent les effectifs d'auditeurs dans l'chantillon.
Tableau 1 :(pourcentage en colonnes sur 1344 citations) FR. INTER 5 18 23 17 14 23 100 EPOQUE 7 31 22 12 13 13 100 EUROPE1 8 10 23 21 16 21 100 VILLE. RMC. INFO RTL 3 7 8 16 23 20 15 22 27 20 24 15 100 100 RADIO. VILLE 23 31 23 12 4 7 100 MUS. PAROLES 2 10 12 12 27 37 100 RADIO AGE 15- 20 ANS 20- 30 ANS 30- 40 ANS 40- 50 ANS 50- 60 ANS + 60 ANS TOTAL RADIO AGE 15-20 ANS 20- 30 ANS 30- 40 ANS 40- 50 ANS 50- 60 ANS + 60 ANS TOTAL HORIZON 30 38 21 7 2 2 100 TOTAL 13 22 22 15 12 15 100

Dans ce tableau, on met en vidence les diffrences d'une tranche l'autre l'intrieur de chacune des radios. A radio Ville et
90

Horizon les 20-30 ans sont les plus nombreux, ville Info ce sont les 50-60 ans. Dans un second tableau, on peut faire apparatre les diffrences d'coute d'une radio l'autre et la structure de l'audience l'intrieur de chaque radio.
Tableau 2: diffrence d'coute et structure de l'audience RADIO FR. EUROPE1 RADIO. HORIZON AGE INTER VILLE 15-20 ANS 13 21 60 66 20- 30 ANS 48 28 82 82 30- 40 ANS 63 64 61 45 40- 50 ANS 46 59 33 16 50- 60 ANS 38 45 10 4 + 60 ANS 61 58 19 5 TOTAL 269 275 265 218 RMC. MUS. TOTAL RADIO EPOQUE VILLE. AGE INFO RTL PAROLES 15-20 ANS 20- 30 ANS 30- 40 ANS 40- 50 ANS 50- 60 ANS + 60 ANS TOTAL 5 21 15 8 9 9 67 2 6 17 11 20 18 74 8 19 23 26 23 18 117 1 5 6 6 13 18 49

176 291 294 205 162 206 1334

Il apparat ainsi que les audiences de Ville Info et Horizon diffrent nettement par rapport la rpartition des ges dans l'chantillon. Horizon attire les jeunes, alors
91

que Ville Info a beaucoup plus de succs parmi les plus anciens. Cette particularit est retrouve en raisonnant sur les pourcentages en lignes et en analysant les chi-deux. Nous verrons aussi que les cartes d'analyse factorielle permettent de mettre en vidence ces carts d'une manire beaucoup plus synthtique. Une seule carte peut suffire l o 8 diagrammes btons seraient ncessaires.

I - LES TESTS STATISTIQUES


Les tests statistiques indiquent dans quelle mesure les rsultats tablis sur l'chantillon peuvent tre appliqus la population totale. Les uns portent sur l'exactitude des observations en pourcentage ou en moyenne. Ils fondent les hypothses rpondant aux noncs : "il y a."; Les autres visent tester l'existence ou l'absence de rapports (relations, correspondances, influences) entre variables ou questions. Ils s'appliquent aux hypothses nonces sous la forme :" Si.Alors". On peut noter que ces tests n'ont de sens que si les donnes auxquelles on les applique sont issues d'un sondage alatoire.

92

1.

Intervalles de confiance et comparaison de frquences ou de moyennes

La thorie de l'chantillonnage nous enseigne que l'estimation est le procd par lequel on passe d'une connaissance certaine dans l'chantillon l'estimation incertaine du mme phnomne dans la population totale. Le logiciel Sphinx permet de d'obtenir des indications sur la qualit de ces estimations. On peut, ainsi, dterminer des intervalles de confiance pour une taille d'chantillon donn. Au lancement des tris, le Sphinx envoie les messages suivants:
-

Effectif infrieur 30 : "nombre d'observations trs rduit" Effectif compris entre 30 et 40 : "Avec.observations, l'erreur d'observation est importante : estimation trs imprcise" Effectif compris entre 40 et 80 : "estimation imprcise". Tableau 3 : Analyse des tris plat-TEST STAT 3 Taux d'coute fourchette 95% 21%< <25% 23% 1 radio.ville 280 224 17%< <21% 19% 2 horizon 3 ville.info 75 6% 5%< <7% 4 poque 67 6% 5%< <7% 5 musica 34 3% 2%< <4% 6 couleur 3 18 2% 1%< <3% 7 paroles 16 1% 0%< <2% Total OBS 1192 L'cart entre les frquences est significatif

Estimation et comparaison de frquences

93

1.96 *

f ( f 1) f ( f 1) f + 1.96 * N N s 2 m + 1.96 * s 2 N N

m 1.96 *

Avec : N : taille de l'chantillon ou de la strate f : frquence dans l'chantillon % m : moyenne dans l'chantillon % s : cart-type
Tableau 4 :VALORISATION CROISEE-TEST STAT Valorisation monocritre suivant le critre cot Vacances

1 2 3 4

Modalit Htel 3/4* Htel 2* Meubl Ensemble

Effectifs Moyennes 39 8237 100 6068 285 5549 718 4757 30 119 3639 3532

Intervalle de confiance 96%

7095 5472 4954 4460

< < < <

m m m m

< < < <

9380 6664 6144 5054

5 Collectivit 6 Rsid.second 7 Parents amis

2849 < m < 4429 3127 < m < 3937

135 2541 2250 < m < 2832 Diffrence non significative 95%

Dans le premier tableau, on t demands l'affichage des intervalles de confiance, puis la comparaison des frquences 1 et 2. On vrifie ainsi qu'il est correct d'annoncer Radio Ville
94

en tte. La probabilit pour que la diffrence observe ne soit due qu'aux alas du sondage n'est que de 5%. Les intervales de confiance sont disjoints. En revanche, on ne peut tirer aucune conclusion du fait que Musica devance Couleur 3 de 16 auditeurs. La diffrence n'est pas significative, les intervalles de confiance se chevauchent. Le deuxime exemple concerne une enqute sur le tourisme. Ont t croiss les questions sur l'hbergement du rpondant et le cot de ses vacances. Aprs classement des modes d'hbergement dans l'ordre dcroissant de leur cot, l'intervalle de confiance t demand. Il indique qu'en moyenne, le cot des vacances se situe pour chaque mode l'intrieur de la fourchette encadrant la moyenne observe dans l'chantillon. on constate aprs vrification (comparaison de moyenne) qu'on ne peut pas dire que les vacances en collectivit reviennent plus cher qu'en rsidence secondaire. L'cart de 107 dh n'est pas suffisant pour conclure dans ce sens. Le nombre d'toiles des htels a en revanche une influence significative sur le cot des vacances. L'cart est de l'ordre de 2000 dh, les intervalles de confiance sont disjoints.

95

2. Le Chi-deux pour analyser les carts entre deux distributions Les tests de comparaison de frquences et de moyennes consistent examiner l'cart entre deux de ces grandeurs. S'il est important, on dcidera que l'une est plus grande que l'autre. dans le cas contraire, on ne prendra pas de risque de donner un sens une diffrence qui n'est peut-tre due qu'aux alas du sondage. Pour comparer des distributions, on raisonne en examinant un cart total (somme d'carts partiels). C'est ce qu'on fait pour analyser des tris plat ou des tris croiss. On faisant la somme, les carts positifs peuvent s'annuler par les carts ngatifs. Pour viter cela, les statisticiens lvent les diffrences au carr, d'o le nom du test du Chi-deux (x2) (carr des carts). * Chi-deux appliqu un tri plat A ce niveau, la dfinition des effectifs thoriques peut se faire : - Avec "qui-rpartition" : on considre une distribution o toutes les modalits ont le mme effectif; - Avec "Fixer les effectifs thoriques" : l'utilisateur peut entrer la rpartition de

96

son choix (sur la base des faits ou ralits). Exemple 1 : prenons le cas d'un chantillon o il y a 55% de femmes et 45% d'hommes. Peut-on, sur cette base, dire que hommes et femmes sont ingalement prsents dans la population? Cela revient comparer la rpartition 50-50 (qui-rpartition) qui devrait donner 596 femmes et 596 hommes. En ralit, il y a 61 hommes en plus et 61 femmes en moins. On dit qu'il n'y a qu'un seul degr de libert car l'un des effectifs est fix, l'autre s'en dduit. Le Chi-deux est gal 12 soit {(657596)2/657+(535-596)2/535}. Ceci signifie que sous les hypothses d'un tirage alatoire, il y a 1% de chances pour qu'un tel cart ne soit que le fait du hasard. (voir la table de chideux pour 1 degr de libert). En ralit, nous savons par le recensement qu'il y a 53% de femmes et 47% d'hommes. Doit-on, dans ces conditions, s'tonner des rsultats obtenus? Aprs avoir indiqu la rpartition thorique (53%, 47%), le message "Ecart Non Significatif" (chi-deux = 2, p =84%) s'affiche. Cela veut bien montrer que la diffrence de 25 hommes en plus et 25

97

femmes en moins peut trs bien s'expliquer par les effets du hasard (16%). Peut-on alors prendre le risque pour considrer que la procdure d'interrogation introduit un biais systmatique? On considre, en gnral, qu'en dessous d'un seuil de 85%, la probabilit de dire vrai est trop faible. Exemple 2. Considrons le comportement d'coute de la strate "femmes". Peut-on dire que le comportement des femmes diffre de celui de la population totale? Ont-elles une tendance plus forte couter telle ou telle radio? Pour le savoir, il faut comparer la distribution relle (25%, 20%, 6%,.), caractrisant le comportement des femmes la distribution obtenue sur l'chantillon total de toute la population (23%, 19%, 6%.): voir tableau 3.
D'aprs le tableau des rsultats, le Sphinx affiche les carts aux effectifs thoriques et calcule le chi-deux. On attire l'attention du lecteur donc sur les carts les plus importants : 66 et 53 auditrices de plus pour Radio Ville et Horizon. Le chi-deux est de 10 pour 7 degr de libert. Le message correspondant s'affiche : "cart peu significatif". Le seuil de 85% est dpass. Les chances pour que cet effet ne soit d qu'au hasard sont non ngligeables (12% dans ce cas).

98

Tableau n5

Chi-deux Fixer les effectifs thoriques


Question n27 sexe Ecart aux valeurs thoriques 657 55% 25 1 fminin 53% 45% - 25 2 masculin 535 47 1192 100% Total Ecart non significatif (chi-deux = 2 p = 84%) Distribution thorique : 53% Donnes recensement 47%

tat

Equi-rpartition

Question n27 sexe Ecart aux valeurs thoriques 1fminin 657 55% 61 2 masculin 535 45% -61 total 1192 100% Ecart significatif (chi-deux = 12 p = 99%)

Distribution thorique : 50% 50% Hypothses galits des effectifs


STRATE SEXE : FEMININ

Question (filtr par SEXE :

CHI-DEUX

FIXER effectifs thorique

1 RADIO.VILLE 2 HORIZON 3 EPOQUE 4 VILLE INFO 5 MUSICA 6 PAROLES 7 COULEUR 3 total Ecart peu significatif (chi-deux = 10 p = 88%

FEMININ) Ecarts aux effectifs thoriques 164 25% 23% 66 134 20% 19% 53 37 6% 6% 11 46 7% 6% 20 24 4% 3% 11 12 2% 1% 8 8 1% 2% -1 657 7 degrs de libert)

Distribution thorique : Taux d'coute sur chantillon total

99

nombre de degrs de libert : c'est *m-1 *m si question type 2 ou 3 et total observation

m eti eti x2 = er i=1 i


eti eri m

effectifs thoriques de la modalit i effectifs rels de la modalit i nombre de modalit

D'aprs cet encadr, le nombre de degrs de libert est gal au nombre de lignes du tableau moins une, sauf s'il s'agit d'une question rponses multiples dont les rponses sont effectues par rapport au nombre total d'observations. Dans ce cas, en effet, le nombre total de citations n'est nullement contraint : la connaissance des effectifs des m-1 premires modalits ne permet pas de dterminer ceux de la dernire. * Chi-deux appliqu un tri crois Considrons toujours l'exemple de l'analyse du comportement d'coute et tudions un tableau crois. On peut comparer
100

le taux d'coute des femmes celui des hommes. Les femmes ont-elles le mme comportement que les hommes? Si les femmes ont le mme comportement que les hommes, l'audience de chaque radio devrait comprendre une proportion gale d'hommes et de femmes. Si cela est vrai, la rgle de trois devrait donner pour chaque radio, le nombre d'auditeurs des deux sexes. Pour faire ce calcul, il faut connatre, l'audience totale de chaque radio et la rpartition hommes/femmes dans l'chantillon. Ce tableau obtenu correspond une rpartition proportionnelle des sexes dans l'audience de chaque radio ou des comportements d'coute pour chacun des sexes. C'est donc le tableau des effectifs thoriques, celui auquel on s'attend dans l'hypothse d'absence d'influence (hypothse nulle) du sexe sur l'coute. La premire tape consiste donc calculer le tableau des effectifs thoriques. Si le sexe n'a pas d'influence sur l'coute des radios locales, il devrait y avoir parmi les 280 auditeurs de radio ville, la mme proportion des femmes et d'hommes que dans l'chantillon, soit respectivement 425/714 et

101

289/714. On en dduit la rpartition thorique : 167 femmes et 113 hommes. Il s'agit, ensuite, comme pour le tri plat, de calculer le chi-deux comme la somme des carrs des carts (effectifs rels moins effectifs thoriques). On divise par les totaux de chaque cellule pour liminer l'effet de masse : le dficit de 3 auditrices sur Couleur 3 est relativement plus important que le mme cart observ sur Radio ville. Le tableau des contributions au chi-deux (% chi-deux partiel/chi-deux total) rend compte de l'importance de ces distorsions. On y voit qu'elles sont les plus fortes dans l'audience de Musica, Paroles et Couleur 3. Les carts sur ces radios reprsentent 87% (12 + 18 + 11 + 16 + 12 + 18) du chi-deux total. Le chiffre indique le % du chi-deux partiel au chi-deux total, le signe indique le sens de l'cart. Le + signifie qu'il y a excs d'effectifs par rapport l'indpendance. Dans notre exemple, Musica attire plus les femmes; Le signe - indique un dficit. Paroles "repousse" les hommes. Le tableau des contributions au chideux s'affiche automatiquement par la biais du Sphinx. Il faut de ce fait se
102

mfier de la porte des conclusions qu'il suggre. Les carts sont-ils suffisamment grands pour conclure l'existence d'une influence se traduisant par des "excdents-attractions" ou des dficitsrpulsions" entre modalits lignes et colonnes? La rponse est souvent fournie par l'application du test. Il consiste dterminer quelle est la probabilit p pour que la valeur du chi-deux ne soit pas l'effet des simples alas du sondage. Pour un chi-deux donn, cette probabilit dpend de la taille du tableau (ou nombre de degrs de libert). En effet, plus les cellules sont nombreuses, plus de petits carts sur chaque cellule peuvent conduire un cart total important. Suivant la valeur P, l'un des messages suivants s'affiche : * P > 95% DEPENDANCE SIGNIFICATIVE * 95% > P <85% DEPENDANCE PEU SIGNIFICATIVE * P < 85% IL N' Y A PAS DE DEPENDANCE SIGNIFICATIVE
REMARQUE Il ne s'agit pas, ce niveau, d'indications suivre. L'utilisateur ou le statisticien peut en dcider autrement s'il le juge justifi.
103

Dans notre cas, la rponse est "non". Le chi-

deux est trop faible et il y a prs d'une chance sur deux pour que les carts d'effectifs ne tiennent qu'a l'effet sondage (la probabilit de dire vrai n'est que de 55%). L'examen du tableau des effectifs le confirme intuitivement. Nous concluons donc que finalement le sexe n'a pas d'influence sur le comportement d'coute. l'hypothse d'indpendance est confirme. En thorie, le test n'est influant et concluant que si les effectifs des cellules du tableau thorique sont au moins gaux 5. L'cran du Sphinx rend compte de cette remarque en indiquant le nombre de cellules d'effectifs infrieur 5. Il peut donc tre opportun de rsumer l'information en regroupant des lignes ou des colonnes. En rsum, la dmarche d'analyse d'un tableau crois utilisant le test du chi-deux est la suivante :
1. Formulation de l'hypothse de dpendance : Si le sexe Alors L'Ecoute (de l'hypothse symtrique d'indpendance, dite aussi hypothse nulle); 2. Examen du rsultat du test : acceptation de l'hypothse si la dpendance est significative, refus dans le cas contraire : "Il n'y a pas de dpendance significative"; 3. Analyse des carts guide par l'examen des contributions au chi-deux si et seulement si l'hypothse nulle est rejete.
104

II- DIFFICULTES D'INTERPRETATION DES TESTS STATISTIQUES

L'hypothse de dpart est la suivante : "le mode de contact a une influence sur l'identit du rpondant". Il n'est cependant pas toujours facile de choisir le bon sens pour noncer l'hypothse. Parfois, des tableaux croiss traduisent en fait des influences doubles. A l'homme d'tude de trancher et de dcider selon le contexte ou les perspectives d'action. Ainsi, l'examen dtaill des chi-deux partiels du tableau 7 montre que la cellule non-rponse/nonrponse reprsente 96% du chi-deux total. C'est--dire que l'cart entre le tableau rel et le tableau thorique vient surtout du fait que 6 questionnaires ont t saisis avec le code non-rponse pour les deux variables (ge et mode d'interview). ces questionnaires n'apportent rien sur le phnomne tudi.

Les tests n'apportent qu'une information statistique, relative aux frquences ou moyennes considres. Le sens qu'on leur attribue dpend de la nature et du contenu des informations traites. L'oublier peut conduire de grossires erreurs d'interprtation. Le tableau n7 retrace l'exemple d'une tude qui cherche savoir si le mode d'interview a une influence ou pas sur l'ge des personnes consultes.

En supprimant les lignes et les colonnes correspondant aux non rponses et en appliquant le test du chi-deux au nouveau tableau (voir toujours tableau n7), on
105

parvient la conclusion inverse de la prcdente : "le mode d'interview n'a pas d'influence sur l'ge des rpondants". En raisonnant sur le premier tableau, on attribuait d'une manire abusive au mode d'interview un effet qui ne se manifeste en fait que sur les quelques questionnaires comportant une non-rponse.
JUGEMENT PARTIEL PLUTOT QUE GLOBAL : le chi-deux, un test de correspondances

L'examen prcdent nous montre qu'il ne suffit pas de prendre en considration le chideux total. Il faut aussi considrer la contribution de chaque cellule l'cart total, indication fournie par le pourcentage entre chi-deux partiel et chi-deux total. Le chi-deux est en ralit un indicateur de correspondance. Dans le tableau n8, il ne suffit pas de dire que l'ge a une influence sur les habitudes d'coute. Cela n'est juste que pour certaines tranches d'ge et pour certaines radios. Il faut, en plus, pouvoir spcifier quelle tranche d'ge correspond telle radio. En fait, comme l'analyse des pourcentages en lignes suffit le montrer, les jeunes ont des habitudes d'coute diffrentes de la population totale et des plus gs : ils sont proportionnellement plus nombreux couter Horizon ou Radio Ville, et moins
106

nombreux couter les radios nationales. On en conclut qu'ils sont attirs par les premires et qu'ils dlaissent les secondes. Quant aux 30-40 ans ou aux 50-60 ans, ils rpartissent leur coute peu prs proportion de l'audience globale de chaque radio. Leur comportement ne peut tre distingu de celui de l'ensemble de la population. Il en va de mme pour les auditeurs d'Epoque.
C'est ce que traduit bien le tableau des contributions au chi-deux. Les lignes ou colonnes pour lesquelles les contributions au chi-deux sont les plus fortes (en gras) s'cartent du comportement moyen. En effet, certaines tranches d'ge privilgient ou dlaissent certaines radios, mais ce n'est vrai ni pour toutes les tranches d'ge, ni pour toutes les radios. Le jugement global fourni par le test du chi-deux doit donc tre prcis par l'examen des contributions au chideux et des donnes de dpart (pourcentages, effectifs). Il ne suffit pas d'indiquer qu'il y a dpendance, il faut prciser qu'elles correspondances elle permet d'tablir.

107

CHAPITRE II L'analyse factorielle des correspondances (A.F.C) Cas pratique N2 L'A.F.C rsume l'information contenue dans des tableaux de donnes, mais aussi elle remplace les diagrammes en btons, etc. Reprenons l'exemple de l'coute des radios en fonction de l'ge des sujets ou de l'audience. Sur une carte factorielle, les distances sont facteurs de ressemblance ou de dissemblances. Les concentrations de points dfinissent des zones opposables les unes aux autres. Sur la premire carte prsente et qui concerne l'exemple cit plus haut, on peut remarquer qu'elle oppose les radios des jeunes aux radios des anciens. Aussi, dans une zone centrale, on voit le regroupement des radios nationales et auditeurs d'ge mdian. Sur cette carte, on notera aussi que : - les pavs vides reprsentent les modalits en lignes; - les pavs pleins font rfrence aux modalits en colonnes; - la surface des pavs est proportionnelle aux effectifs des modalits considres
108

(nombres du tableau initial). On peut avancer, travers la carte que l'audience de Epoque et Mus.Paroles est faible (voir le tableau initial de l'chantillon; elles ont respectivement 67 et 49 auditeurs). A partir de cette carte, on peut aussi noter que : - A la priphrie, il y a les modalits originales Horizon et Radio Ville, les 15-20 ans et 2030 ans d'une part, Ville Info et Musicoparole, les 50-60 ans et + 60 ans d'autre part. On peut vrifier cette position priphrique, on se reportant aux tableaux des pourcentages dj vu. Ainsi, pour ces modalits, les structures d'audience et les habitudes d'coute diffrent normment de ce qu'elles sont sur l'chantillon total. L'examen des contributions au Chi-deux confirme ce constat. En effet, ces modalits sont l'objet de forts carts l'indpendance. cela s'explique par les chiffres figurant en caractres gras dans les lignes et colonnes correspondantes. - Au centre, les modalits sans surprises Les 30-40 ans et ceux qui coutent Epoque sont plus prs du centre de la carte. On peut dire, en se rfrant au tableau initial de
109

pourcentages ou d'effectifs, que les 30-40 ans ont des habitudes d'coute voisines de celles de l'chantillon. - Proximit gale attirance ou ressemblance Modalit ligne proche d'une modalit colonne : les effectifs qui rpondent aux deux conditions sont plus nombreux. Exemple, la proportion des 15-20 ans dans l'audience de Horizon est plus forte que ce qu'elle reprsente dans l'chantillon total (30% contre 13%, voir le tableau initial). Cette situation est confirme aussi par la forte contribution au chi-deux de le cellule 15-20 ans, Horizon (voir les dveloppement prcdents). Le signe + signifie un cart positif traduit sur la carte par la proximit des deux modalit. Horizon attire les jeunes. On peut procder de la sorte en ce qui concerne Ville Info avec les 50-60 ans et les plus de 60 ans. - Eloignement gale rpulsion ou dissemblance Eloignement d'une modalit ligne par rapport une modalit colonne : signifie une rpulsion. Exemple, les 15-20 ans sont en proportion moins nombreux couter Ville Info que dans l'chantillon total. Le mme raisonnement peut tre fait en ce qui
110

concerne les plus de 60 ans par rapport Horizon. Cette explication est vrifie en examinant le chi-deux partiel : 7% du chi-deux, est l'importance de l'cart aux effectifs thoriques dans la cellule Horizon, + 60 ans. Le signe montre qu'il s'agit d'un dficit traduit sur la carte par des positions trs loignes. Conclusion : deux modalits lignes loignes ne se ressemblent pas. Coefficient et interprtation des axes Le coefficient bta
La valeur du coefficient bta figurant en tte de commentaire papier indique le caractre plus ou moins significatif des carts l'indpendance. Ce coefficient varie de la mme faon que le chi-deux, mais ne dpend pas du nombre du degr de libert. Quand il est suprieur 3, la carte est significative. Dans le cas d'un autre exemple, (Revenu ou CSP * taux d'coute), le bta est gal uniquement 1.4 (voir le tableau ci-contre). Si on compare les btas des cartes de correspondances Ages * taux d'coute (commentaire de la carte plus haut) et des CSP * Ecoute, on remarque que les correspondances sont plus marques en ce concerne les ges (bta = 50) que les CSP ( bta = 27). On peut donc, conclure que l'ge de ses auditeurs caractrise mieux une radio que leur CSP. Les revenus semblent n'avoir aucune influence sur les comportements d'coute.
Revenu-Radio citations) (pourcentages en colonnes tablis sur 1 124

111

RADIO AGE - 4000 4-7000 7-10 000 10-15 000 15-20 000 + 20 000 TOTAL

FR. INTER 4 18 31 28 12 7 100 Chi-deux

EUR0 PE1 4 20 24 34 8 9 100

RADIO. HORIZ EPO V.IN RMC M.PA TOTA VILLE ON QUE FO RTL ROLE L S 7 10 12 4 5 8 6 25 21 21 32 19 27 22 27 32 25 33 36 22 29 24 22 26 23 27 24 27 10 9 12 3 7 11 9 8 6 4 4 5 8 7 100 100 100 100 100 100 100 Il n'y a pas de dpendance significative (chi-deux = 43.28 p = 84%) Rsultats non significatifs (bta = 1.4) La carte d'AFC ne s'affiche pas Retour au tableau de dpart

Analyse factorielle

Les axes factoriels Dans la carte factorielle suivante qui concerne Radio * CSP, les oppositions selon l'axe horizontal expriment le fait que les modalits tudiants-coliers d'une part, les retraits d'autre part, sont l'objet d'cart important. Leurs comportements d'coute les distinguent du comportement moyen. Selon l'axe vertical, les ouvriers sont opposs aux cadres suprieurs/professions librales et dans une moindre mesure aux cadres moyens. A l'ouest de la carte, on trouve les radios attirant les jeunes (Horizon, etc.), l'est,
112

celles des retraits. Au nord, on devrait elles trouver les radios attirant les ouvriers et au sud celles des cadres. Toutes ces interprtations dpendent du coefficient bta, mai aussi du pourcentage du lien restitu par chacun des axes. En effet, sur l'axe vertical, les oppositions ouvriers cadres suprieurs/professions librales ne rendent compte que de 10% des particularits de comportement, tandis qu'on considrant les variations de comportement tout le long de l'axe horizontal, on restitue 73% de l'information. Si on veut raliser des regroupement, on peut dire que la gographie de notre carte est particulirement caractrise par les contrastes est/ouest, du nord au sud. Impact des changements d'un tableau crois sur la carte d'A.F.C Suppression de lignes et/ou colonnes Les modifications du tableau initial affectent largement les rsultats de l'A.F.C. Reprenons l'exemple de l'tude qui concernait le mode d'interview et l'ge des rpondants. Le tableau ci contre, montre que le bta est trs lev (90). L'axe horizontal explique la quasi-totalit des distorsions et rend
113

compte du fait que les questionnaires sans rponse l'ge n'ont pas t remplis pour le mode d'interview ! Lanalyse de dpendanceindpendance nous montre que 96% du chideux est d la cellule non-rponses/nonrponses. Si on supprime les non-rponses du tableau et l'on dsire effectuer l'AFC, la carte ne s'affiche pas. Il n'y a donc pas de dpendance significative (les comportements sont presque analogues), bta est infrieur 3. Le mode d'interview n'a de ce fait, aucun impact sur l'ge des rpondants. La mme analyse applique l'influence du mode d'interview sur le sexe du rpondant ne conduit pas aux mmes conclusions. A ce niveau, la suppression des non-rponses a permis de mieux disperser les points se trouvant au centre de la carte. Mais le bta chute et un seul axe (horizontal) rend compte et restitue toute la variance. Conclusion : la suppression des modalits lignes ou colonnes a une grande influence sur l'interprtation de la carte de l'AFC. Regroupement de lignes et/ou colonnes

114

Le regroupement de deux lignes ou deux colonnes conduit les remplacer dans la carte par leur centre de gravit. On peut regrouper les indpendants et agriculteurs. On peut aussi les associer aux catgories "chmeurs" et "inactifs". Ainsi, toutes ces catgories occupent une place assez importante dans la premire carte : leurs comportements d'coute sont relativement peu marqus. En faisant ce genre de regroupement, on ne bouleverse pratiquement pas grand-chose. En plus, cela fait ressortir encore plus les oppositions tudiants/retraits. Le bta augmente, mais aussi le poids du premier axe. Conclusion : le regroupements de modalit ( l'oppos de leur suppression) ne fait qu'accentuer les caractristiques perceptibles sur la premire carte. NB. Il ne faut jamais regrouper des modalits qui s'opposent.

115

CHAPITRE III L'analyse en composantes principales (A.C.P) 1- Objectif : l'A.C.P consiste dcrire un tableau de donnes quantitatives. Ces donnes peuvent, par exemple, correspondre P mesures morphologiques : taille, poids, longueur des bras,..observes sur n individus. On dispose donc d'un tableau "individusvariables" not X, n lignes et p colonnes ayant la forme suivante : 1 2..j.p

X = individus n*p Matrice carre

1 j p 2 k k ............k ............k 1 1 1 1 j p 1 2 k k ............k ............k 2 2 2 2 .............................................................. 1 j p 2 k ............k ............k ki i i i .............................................................. .............................................................. j p 1 2 k kn ............kn ............kn n

116

On peut lire le nombre Xji qui signifie la valeur de la jme variable sur le 1me individu. Il faut donc passer un tableau y : individus-nouvelles variables, en rduisant le nombre de variables ncessaires pour dcrire les individus, tout en perdant le moins possible d'information. Formulation du problme Le problme pos consiste rduire les P variables initiales en un nombre q de variables "Composantes", ou facteurs (q<p). Il s'agit donc de passer de la matrice des donnes initiales (n individus * p variables) une matrice rduite :
Facteurs (j = 1,.,q)
f ................................ f 11 1q . . ................. f .................... ij . . f ............................. f nq n1

Individus (i = 1,..,n)

NB. On joue sur les variables et non pas sur les Individus

L'lment gnral fij est la valeur du facteur j pour l'individu 1. Les facteurs devront rpondre aux deux conditions dj vues :
117

p * Linarit F = a X j k =1 j1 k * Indpendance Cor(F , Fm ) = 0 pour j diffrent de m j 2- La notion d'axe Factoriel Soit l'exemple simple suivant utilis pour prsenter la notion d'axe factoriel :
Deux individus A et B B1 G B2 A1 A2 A 1 2

- Trois points ont t reprsents : G est le centre de gravit du nuage de points analys : A et B sont deux des n points (individus) du nuage. - L'information apporte par l'individu 1 (reprsent par le point A ) est gale au carr de la distance de G A : I1 = (GA)2 De la mme faon : I2 = (GB)2
118

Si maintenant, deux axes passant par G sont considrs (reprsents ici par 1 et 2), l'information restitue sur ces axes peut tre facilement calcule. Pour le point A, cette information est gale, sur 1 : I1 (1) = (GA1)2, GA1tant la distance des points G et A1 : A1 est la projection orthogonale de A sur 1. De la mme faon : I2 (1) = (GB1)2, GB1tant la distance des points G et B1 : B1 est la projection orthogonale de B sur 1. Pour l'ensemble des points considrs, l'information restitue par 1 est gale : I (1) = I1(1) + I2(1) = (GA1)2 + (GB1)2 pour l'axe 2, cette information est donne par : I (2) = (GA2)2 + (GB2)2 Il est clair sur le graphique que la quantit I (2) est plus grande que la quantit I (1). l'axe 2 est donc meilleur que 1 pour rendre compte des positions respectives de A et B par rapport au point G. Il va donc s'agir, pour un nuage de n points reprsents dans un espace p dimensions, de trouver le meilleur axe et ainsi de suite.

119

Il se posera alors le problme de choisir le nombre d'axes retenus puis de leur interprtation. 3- La matrice des variances-covariances - On appelle matrice de variancescovariances la matrice V ayant pour lment gnral Vij la covariance des variables i et j. Les lments de la diagonale principale sont les variances Vii des diffrentes variables. Cette matrice est symtrique, carre (de taille p), sa trace (c--d la somme des termes de la diagonale principale) est gale la variance totale du nuage de points. - De mme, la matrice des corrlations a pour lment principal Rij, le coefficient de corrlation entre les variables i et j. La diagonale principale est forme de 1 (corrlation d'une variable avec elle-mme). Sa trace est gale p (nombre de variables). L'une ou l'autre de ces matrices sert de point de dpart l'ACP; la 1re correspond au cas o les variables sont centres; la seconde au cas o elles sont centres et rduites. 4- Procdure de rsolution Le principe de la procdure de rsolution va tre de trouver successivement un premier facteur rsumant le mieux l'information contenue dans la matrice initiale, puis un second, indpendant du premier, rsumant le
120

mieux l'information rsiduelle, et ainsi de suite (l'expression de la quantit d'information retenue pour cette mthode et la variance totale). L'algorithme de rsolution utilis met l'accent sur les points suivants : - Les axes factoriels (ou composantes principales) passent par le centre de gravit du nuage de points form par les observations; - Les axes factoriels sont des vecteurs propres de la matrice de variancescovariances (ou de la matrice des corrlations si celle-ci est utilise); - La valeur propre associe un axe factoriel (repr par un vecteur propre unitaire) mesure la variance de cet axe; - La premire composante principale est donc le vecteur propre associ la plus grande valeur propre; la seconde est associe la valeur propre suivante, et ainsi de suite; - On obtient ainsi p axes factoriels (p tant le nombre de variables); la somme des valeurs propres associes ces axes est gale la variance totale (trace de la matrice de variance-covariance); - Les axes sont orthogonaux;

121

- La variance totale du nuage de points est concentre sur les premiers axes. En rsum, la procdure de rsolution de l'ACP est la suivante :
Matrice des donnes initiales Mnp Individus/variables

Calcul de la matrice des variancescovaiances Vnp

Extraction des axes factoriels (Vecteurs propres de V)

Choix de K axes factoriels

Calcul des scores factoriels (coordonnes des individus sur les axes factoriels) matrice Fnk

Calcul des corrlations entre les axes principaux et les variables initiales (matrice Cpk)

122

Remarque : interprtation des projections


F2
Comportement analogue envers les q variables
* * * * * * * * * * * * * ** *

**
*

* * * * * * * * * * * * * * * * * * * * ** * * ** ** * * P points * * * * * / / ** * * * * * * * * * * **

F1

* ** * *

Projections des observations

1- une proximit entre les projections de deux points observations (individus) s'interprte comme un comportement analogue envers les q variables. 2- Une proximit entre deux points variables signifie que les deux variables correspondantes sont corrles. La corrlation est d'autant significative que les points

123

reprsentatifs de ces variables sont plus loignes de l'origine (G). 3- Une proximit entre un point variable et un point observation (individu) signifie que la variable joue un rle important pour l'observation considre.
F2
*

** * . * * * * . * * * * . *

* . *

* * . *

. * . * . . *

. * . . *

.
*. .

point variable

* *. . * * * *

F1

*
*

Point observation

4- Une signification doit tre donne aux axes factoriels sur la base de l'analyse faite et des proximits (individuxvariables, variables-variables ou individus-individus) observes.

124

S-ar putea să vă placă și