Sunteți pe pagina 1din 15

5- Analyse discriminante

5. ANALYSE DISCRIMINANTE .........................................................................................................................2 5.1 NOTATION ET FORMULATION DU PROBLME ...............................................................................................2 5.2 ASPECT DESCRIPTIF..........................................................................................................................................3 5.2.1 RECHERCHE DU VECTEUR SPARANT LE MIEUX POSSIBLE LES GROUPES. ............................................4 5.2.2 Cas particulier de deux groupes ............................................................................................................7 5.3 ASPECT CLASSEMENT ......................................................................................................................................7 5.3.1 Approche gomtrique du classement ...................................................................................................8 5.3.2 Approche probabiliste (simplifie) ........................................................................................................9 5.3.3 valuation de la qualit de l'analyse discriminante .........................................................................10 5.3.4 Test dgalit des matrices de covariances intra-groupes ...............................................................13 5.4 PROCDURES DE SLECTION DES VARIABLES ............................................................................................13 5.4.1 Exemple danalyse discriminante (2 groupes) ...................................................................................14 5.5 EXEMPLE D'APPLICATION: INDICE DE PROSPECTION GOCHIMIQUE.......................................................15

5- Analyse discriminante

5. Analyse discriminante L'analyse discriminante tudie des donnes provenant de groupes connus priori. Elle vise deux buts principaux: i. ii. Description: Parmi les groupes connus, quelles sont les principales diffrences que l'on peut dterminer l'aide des variables mesures? Classement: Peut- on dterminer le groupe d'appartenance d'une nouvelle observation uniquement partir des variables mesures?

La figure 1 (tir de Davis, 1973, p. 444) illustre une AD pour le cas de deux groupes, dans un espace 2 variables. La discrimination entre les deux groupes est moyenne aussi bien sur la 1re que sur la 2e variable. On note un chevauchement non-ngligeable des groupes. Par contre, si on projetait les observations sur la droite gale 0.5x1+0.5x2, on aurait une discrimination parfaite entre les deux groupes. C'est ce que cherche faire l'AD dans le contexte plus gnral o l'on dispose de plusieurs variables et plusieurs groupes. Les domaines d'application de l'analyse discriminante sont nombreux en gologie: dfinition d'indices de prospection gochimique, analyse d'images, caractrisation gochimique de types de roches, etc. L'analyse discriminante se rattache au champ plus vaste de la reconnaissance des formes. Par ses objectifs, elle s'apparente galement aux rseaux neuronaux, sujet trs la mode en recherche informatique. 5.1 Notation et formulation du problme Soit: n: p: k: nk: T: T*: E: E*: D: D*: nombre total d'observations. nombre de variables mesures. nombre de groupes. nombre d'observations dans le groupe k. matrice de variabilit totale. matrice de covariances totale: T/(n-1) matrice de variabilit entre les groupes. matrice de covariances entre les groupes: E/(k-1) matrice de variabilit dans les groupes. matrice de covariances dans les groupes : D/(n-k).

X: C: yi:

T, E et D sont des matrices p x p. T et D sont habituellement de rang p. E est de rang k-1. matrice n x p des observations o les observations sont places un groupe la suite de l'autre. matrice n x p des moyennes des p variables dans les k groupes rptes nk fois. vecteur px1 des moyennes des p variables pour le groupe i.

Remarque:

On a donc:

5- Analyse discriminante
X = x1 1p 1 x 2p . x1 1 p n 2 x1p x2 2p . 2 x n2 p . . k x1p k x 2p . k xnk p
C = y 11 y11 . y11 y 21 y 21 . y 22 . . y 1 k y 1 k . y k1 y1p y1p . y1p y 2p y 2p . y 2p . . y kp y kp . y kp

x1 11 x1 21 .

x1 . . 12 . . . . . .

y12 . . . . . . . . y12 . . y 22 . . . . . . . . y 22 . . . . . . . .

x111 x111 . . n n
2 x11 2 x12

. .

x2 21 .

. . . . . .

x 221 x 222 . . n n . .
k x11 k x 21

. .

. . . .

yk 2 . . . . . . . . y k2 . .

k x12 . .

. . . . . .

k k xn k 1 xn k 2 . .

5.2 Aspect descriptif Soit un vecteur u1. On choisira u1 de telle sorte que les projections des moyennes des groupes sur u1 soient le plus espaces possible et que, simultanment, les projections des observations d'un mme groupe soient le plus rapproches possible de la projection de la moyenne du groupe. Bref, sur ce vecteur u1 on cherche observer des groupes compacts et distants les uns des autres. La matrice X centre par rapport aux moyennes calcules avec toutes les observations (sans tenir compte du groupe) est donne par: Xc = X - 11'X/n De mme, la matrice C centre (i.e. la matrice contenant les moyennes de chaque groupe centres par rapport la moyenne globale) s'crit: Cc = C - 11'X/n On pourrait galement centrer chaque observation de la matrice X par rapport la moyenne du groupe correspondant:

5- Analyse discriminante

Xg = X - C Bien sr, on a: Xc = Cc + Xg La matrice de variabilit (totale) s'crit alors: T = Xc'Xc T = Cc'Cc + Xg'Xg T=E+D Le premier membre de droite reprsente la matrice de variabilit entre les centres des groupes (E pour "Entre"). Le second membre reprsente la matrice de variabilit l'intrieur des groupes (D pour "Dans"). Les groupes seront d'autant plus faciles discriminer ( sparer) que E sera grand par rapport D (o T). En effet, si E est grand, ceci signifie que les centres des groupes sont loigns. Si D est petit, ceci signifie que les observations d'un mme groupe sont proches de leur centre. Si on a simultanment E grand et D petit alors les groupes sont loigns les uns des autres et compacts, la situation idale. car Xg'Cc = 0

5.2.1 Recherche du vecteur sparant le mieux possible les groupes. Soit un vecteur u sur lequel seront effectues les projections des observations. Effectuons les "projections" sur u: Xcu La variabilit de ces projections est donne par: u'Tu On a: u'Tu = u'Du + u'Eu Le vecteur u recherch est le vecteur qui maximise le rapport:
u Eu u Du ou u Eu u Tu

Nous choisirons le premier rapport parce qu'il est utilis plus souvent (les deux sont admissibles et donnent des rsultats identiques).

5- Analyse discriminante

Il est quivalent de maximiser u'Eu/u'Du ou de maximiser u'Eu sujet u'Du = 1 (en effet soit u le vecteur obtenu en solutionnant directement le rapport; si u'Du = c 1 on n'a qu' poser u* = 1/c u et on a le mme maximum avec la contrainte respecte). Comme dja vu en ACP, on a un problme de maximisation sous contrainte qui est rsolu par la technique de Lagrange. On trouve u est solution de D-1Eu = u u'Du = 1 On reconnat un problme de vecteurs propres et de valeurs propres. Le vecteur recherch est le vecteur propre associ la plus grande valeur propre de D-1E. Les autres vecteurs propres de cette matrice seront successivement les vecteurs, orthogonaux aux prcdents (i.e. u'iDuj=0) donnant la meilleure sparation entre les groupes. On aura, au plus, k-1 valeurs propres non-nulles car le rang de la matrice E est de k-1 (k groupes centrs). Ainsi deux groupes centrs dfinissent une droite passant par l'origine (dimension 1), trois groupes dfinissent un plan (dimension 2), etc... Remarque: Bien que D-1 et E soient des matrices symtriques, le produit D-1E ne donne pas une matrice symtrique. On pourrait donc craindre que les valeurs propres et les vecteurs propres ne soient pas rels et que les vecteurs propres ne soient pas orthogonaux. On peut dmontrer que les valeurs propres et les vecteurs propres sont effectivement rels. La relation d'orthogonalit entre les vecteurs propres est lgrement modifie; on a en effet: ui'Duj=0 ; ui'Euj=0 ; ui'Tuj = 0 si i est diffrent de j. Ceci entrane que les projections de X sur les vecteurs propres u ne sont pas corrles. Si l'on a plus de groupes que de variables (et donc que la matrice E est inversible), alors les projections des observations sur les vecteurs propres reprsentent des distances de Mahalanobis. En effet, soit deux observations x et y (vecteurs colonnes px1). La projection de x sur l'ensemble des vecteurs propres est xU. La projection de y est yU. La distance (au carr) entre les deux projections est (x-y)UU(x-y). Or U'DU=I (condition de normalisation que lon a impose au dpart de lAD), ce qui implique que UU'=D-1 (en effet prmultipliant UDU par U et postmultipliant par U, on trouve UUDUU=UU; postmultipliant par (UU)-1D-1, on trouve UU=D-1). La distance (au carr) entre les deux projections est : (xy)UU(x-y )=(x-y)D-1(x-y). Lorsqu'il y a moins de groupes que de variables, UU' D 1 et les distances ne sont plus des distances de Mahalanobis au sens strict. En fait on montre (voir annexe) que dans ce cas UU=D-1M (o M = EU- U et est une matrice diagonale avec 1 / i sur la diagonale pour i > 0 et 0 si i = 0 ). M est une matrice idempotente (donc de projection) non symtrique, lespace de projection tant dfini par les centres des groupes (matrice E). On se trouve alors calculer la portion de la distance de Mahalanobis contenue dans lespace dfini par les centres des groupes. Cest bien la seule distance qui importe puisque le complment est orthogonal cet espace. Remarque: Mesurer les distances avec la mtrique D-1 revient effectuer une rotation selon les axes principaux (voir ACP) de la matrice D et une normalisation pour que la dispersion intragroupe soit 1. Par la suite on calcule la distance euclidienne habituelle. Bref, on calcule V tel que DV=VS (o S est la matrice diagonale contenant les valeurs propres de D). On

Remarque:

5- Analyse discriminante

projette les observations centres sur V (rotation) : XcV, (note VV=I) on normalise :XV*S-0.5. La distance (au carr entre 2 observations transformes est alors : (x*-y*)(x*-y*)=(x-y)VS-1V(x-y)=(x-y)D-1(x-y). La dernire galit provient du fait que : DV=VS => DVV=D=VSV => D-1=(VSV)-1=VS-1V. Bref, on peut interprter lAD comme une nouvelle faon de mesurer les distances dans lespace original ou plutt comme une transformation pralable faire subir aux donnes avant de calculer la distance euclidienne. La transformation pralable vise rendre les nouvelles variables non-corrles et de dispersion (dans les groupes) unitaire. Aprs avoir centr X, on calcule les coordonnes des observations sur les vecteurs propres en faisant Co=XcU. Si lon calcule la matrice des produits croiss des coordonnes, on obtient : CoCo=UXcXcU=U TU=U(D+E)U=UDU+UEU= I+ On voit que les coordonnes sur les diffrents vecteurs propres ne sont pas corrles et que la dispersion sur chaque vecteur propre vaut 1+ i pour le ime vecteur propre. i est valeur propre de D-1E.

5- Analyse discriminante

5.2.2 Cas particulier de deux groupes C'est un cas qui se prsente trs frquemment et pour lequel la solution est particulirement simple puisqu'on a alors un seul vecteur discriminant (vecteur propre de D-1E). On peut montrer que le vecteur propre est donn par:

u=
La valeur propre associe est:

n 1n 2 1 D ( y1 y 2 ) n

= (y1-y2)'D-1(y1-y2) n1n2/n=u'Eu Dans le cas de deux groupes, on n'a donc aucune recherche de valeurs propres et vecteurs propres effectuer.

5.3 Aspect classement On a de nouvelles observations que l'on veut classer dans un des groupes connus uniquement partir des valeurs mesures. Exemple: Vous prlevez un certain nombre de roches volcaniques en Abitibi pour lesquelles vous analysez les lments majeurs. Vous formez deux groupes selon qu'il existe ou non un gisement connu situ proximit de l'observation. Dans une nouvelle zone d'exploration, vous mesurez les mmes variables et vous classez l'observation. Si celle-ci est classe dans le groupe "proximal", alors c'est que cette roche prsente une signature gochimique plus similaire aux roches rencontres proximit des gisements qu'aux roches "distales". Il s'agit donc d'une zone favorable. Vous disposez d'images satellites dans plusieurs bandes de frquences. Vous voulez utiliser cette information pour identifier les types de roches sur l'image. En quelques endroits (pixels), vous connaissez le type de roche pour l'avoir identifi sur le terrain. Vous formez des groupes avec ces pixels connus et vous cherchez classer les autres pixels de l'image. Le classement est particulirement indiqu lorsque les groupes sont difficiles dterminer pour une raison ou une autre (cot, inaccessibilit,...).

Exemple:

Remarque:

Nous traiterons de deux approches diffrentes; une approche gomtrique et une approche probabiliste (simplifie).

5- Analyse discriminante

5.3.1 Approche gomtrique du classement L'ide de base est trs simple. Il s'agit de calculer la distance (dfinie par D-1) entre la nouvelle observation et le centre de chacun des groupes. On classera la nouvelle observation dans le groupe pour lequel cette distance est minimale. La distance entre une observation x (p x 1) et un groupe i s'crit d2(x,yi) = (x - yi)' D-1 (x - yi) o yi est le vecteur p x 1 des moyennes des p variables pour le groupe i. Dveloppant le produit on trouve: d2(x,yi) = x'D-1x - 2x'D-1yi + yi'D-1yi Le terme x' D-1 x ne dpend pas du groupe considr. On veut classer dans le groupe pour lequel la distance est minimale. On peut tout aussi bien classer dans le groupe pour lequel gi est maximal avec: gi =[ x'D-1yi - 1/2 y'iD-1yi ] * (n-k) = [ x'D*-1yi - 1/2 y'iD*-1yi ] Les gi sont ce que l'on appelle des "fonctions de classification" ou encore des "fonctions linaires discriminantes". On en possde autant qu'il y a de groupes et on affecte la nouvelle observation au groupe pour lequel sa fonction de classification est maximale. Le facteur (n-k) est introduit pour pouvoir utiliser D* au lieu de D. En effet, D* est la matrice de covariances ncessaire pour pouvoir calculer les probabilits dappartenance chaque groupe (voir section 5.3.2)

5.3.1.1 Cas de deux groupes On affecte l'observation au groupe 1 si g1 > g2 ou g1-g2 > 0 Or g1 - g2 s'crit Ceci devient: x'D*-1y1 - 1/2y1'D*-1y1 - x'D*-1y2 + 1/2y2'D*-1y2 > 0 (x' - 1/2(y1+y2)') D*-1 (y1-y2) > 0 ou x'D*-1 (y1-y2) > 1/2(y1+y2)' D*-1 (y1-y2)

Comparant ces rsultats au vecteur propre trouv dans l'approche descriptive, on constate que le rsultat du classement s'observe directement sur le premier vecteur propre. L'observation est class dans le groupe dont le centre se projette du mme ct par rapport au point milieu sparant les deux groupes.

5- Analyse discriminante

5.3.2 Approche probabiliste (simplifie) L'ide est de classer une observation dans le groupe pour lequel la probabilit conditionnelle d'appartenir ce groupe tant donnes les valeurs observes est maximale. En pratique on ne peut calculer ces probabilits que si les observations proviennent d'une loi multinormale. Si tel n'est pas le cas on devra au pralable transformer les donnes pour s'en rapprocher le plus possible. (La pratique a toutefois prouve que l'AD tait trs robuste face l'hypothse de multinormalit). La fonction de densit multinormale est: f(x) = (2)-p/2 -1/2 exp(-1/2(x - y)1 -1 (x - y)) Si x provient du groupe i alors sa fonction de densit est estime par: N(yi, D*i). De la dfinition de probabilit conditionnelle, si l'observation appartient ncessairement un des k groupes, et si lon suppose qu priori chaque groupe a une probabilit gale dtre observ, on a:

P(groupe i | x) =

f i (x)

f (x)
j j =1

Si l'on suppose de plus que les k groupes ont mme matrice de covariances D alors on a:
1 exp - (x - y i ) D *1 (x - y i ) 2

P(groupe i| x) =

exp- 2 (x - y j )D *1 (x - y j )
j=1

Aprs quelques manipulations, cette expression peut s'crire:


k P(groupe i| x) = exp( g j - gi ) j=1
-1

o les gi sont les fonctions de classification dcrites la section prcdente. Cette probabilit est maximale quand gi est maximale (ou quand la distance d'un point au centre du groupe est minimale). Conclusion: Remarque: Les approches gomtriques et probabilistes sont strictement quivalentes lorsque l'on a k populations multinormales avec mmes matrices de covariances. Dans l'approche probabiliste, on peut inclure des probabilits priori de rencontrer chaque groupe. Dans le cas de deux groupes, ceci revient d'un point de vue gomtrique dplacer le point milieu de faon favoriser le groupe ayant la plus grande probabilit priori d'tre rencontre. galement, on peut inclure des pnalits relies au mauvais classement d'une observation. Toutefois, tous ces rsultats ne sont valides que si l'hypothse de multinormalit est respecte.

5- Analyse discriminante 10

Remarque:

Lorsqu'on permet que les matrices de variances-covariances Di* varient d'un groupe l'autre, on se trouve alors effectuer une discrimination non-linaire. Les zones attaches chaque groupe ne sont plus dlimites par des plans (hyperplans) comme c'tait le cas prcdemment, mais plutt par des surfaces courbes. On donne le nom de discrimination quadratique cette approche. Elle est rarement utilise. D'autres variantes existent encore pour l'AD. L'tude de celles-ci dpasse toutefois le cadre de ce cours.

Remarque:

5.3.3 valuation de la qualit de l'analyse discriminante Il existe plusieurs faons de vrifier la qualit d'une analyse discriminante; certaines font appel des hypothses probabilistes, d'autres non. Les rsultats prsents dans les sections suivantes le sont principalement pour rfrence car ces statistiques sont frquemment utilises dans les logiciels commerciaux. 5.3.3.1 Pourcentage de bien classs C'est la statistique la plus utilise et aussi la plus "parlante" tout en tant la plus simple. L'ide est la suivante: on a une procdure de classement, alors pourquoi ne pas l'appliquer aux observations dont on connat le vritable groupe et vrifier ainsi si l'on effectue un bon classement. Exemple: Groupe AD 1 Groupe vritable 1 2 50 30 2 10 110

Ici on aurait 160/200 = 80% des observations de bien classes. C'est un fort pourcentage si l'on considre qu'un classement fait entirement de faon alatoire donnerait en moyenne 50% de bien classs. De plus on note que les observations du groupe 1 sont bien classes dans une proportion de 83% alors que les observations du groupe 2 sont bien classes dans une proportion de 78%. Le groupe 1 est donc lgrement plus homogne que le groupe 2. Notons que ce pourcentage de bien classs est trop optimiste, surtout lorsque le nombre d'observations est faible. En effet, si l'on forme deux groupes provenant d'une mme population et que l'on applique l'analyse discriminante, on devrait trouver un pourcentage lgrement suprieur 50% car les fonctions de classification s'ajustent aux variations chantillonnales. Une faon d'obtenir un estim plus raliste consiste mettre de ct une certaine proportion des observations initiales de chaque groupe, de trouver les fonctions de classification avec les autres observations puis d'effectuer le classement des observations mises de ct (chantillon test). Une autre variante consiste mettre de ct une observation la fois et de rpter l'analyse et le classement n fois.

5- Analyse discriminante 11

Remarque:

Puisque le tableau de classement (appel aussi matrice de confusion) est une forme de tableau de contingences, on peut tester le caractre significatif du classement l'aide d'un test d'indpendance du Khi2.

5.3.3.2 Lambda de Wilks Cette statistique est dfinie comme tant le rapport des dterminants des matrices D et T. L = D/T = T-1D
L =

i
i=1

o i est une valeur propre de T-1D. La relation suivante relie les valeurs propres et :
=
1 +1

Sous hypothse de multinormalit et d'galit des matrices de covariances, on peut montrer que -[ n - (p+k)/2 - 1 ] Ln L o n est le nombre total d'observations. p est le nombre de variables. k est le nombre de groupes.

est approximativement distribue suivant une loi Khi2 avec p(k-1) degrs de libert. Lorsque l'on a plusieurs groupes (k > 2) et que l'on veut vrifier le caractre significatif des vecteurs propres qui restent aprs en avoir accept q, on peut formuler le test suivant: H0: les vecteurs propres q+1, q+2 .... k-1 n'ajoutent rien la discrimination des k groupes. H1: non H0 alors -[ n - (p+k)/2 - 1 ] Ln L* o L* est donn par:
L* =

i=q+1

k -1

5- Analyse discriminante 12

est approximativement distribu selon une loi Khi2 avec (p-q)(k-q-1) degrs de libert. Un autre test similaire ce dernier utilise le fait que (n-k) q est approximativement distribu suivant une loi Khi2 avec (p+k-2q) degrs de libert. On vrifie successivement si la 1re (q=1) valeur propre est significative, puis la 2e (q=2), et ainsi de suite. Remarque: Ces deux derniers tests sont utiles surtout pour des fins de description. Ces rsultats ne peuvent pas tre incorpors dans l'tape classement.

5.3.3.3 Le "V" de Rao. La statistique V mesure la somme des distances entre les centres des groupes et la moyenne globale. La distance est normalise par la matrice D*-1 (gnralisation de la distance de Mahalanobis). Elle est dfinie comme tant:

V = ni ( y i - y) D *-1 ( y i - y)
k i=1

yi: vecteur moyenne du groupe i (px1) y : vecteur moyenne totale D* : matrice de variance-covariance intra-groupe (i.e. D/(n-k) ou k est le nombre de groupes et D est la matrice des produits croiss intra-groupes) ni est le nombre dobservations dans le groupe i, n est le nombre total dobservations.

On peut dmontrer que sous hypothse de multinormalit et d'galit des matrices de covariances, V est distribue suivant une Khi2 avec p(k-1) degrs de libert. galement si on effectue la discrimination avec p variables puis avec p+1 variables, on peut vrifier le caractre significatif de l'ajout de la variable. En effet, le changement de V (i.e. Vfin-Vini) est alors distribu suivant une Khi2 avec (k-1) degrs de libert.

5.3.3.4 Corrlation canonique ou pouvoir discriminant d'un vecteur propre Soit le rapport:
=
u Eu u Tu

Par un dveloppement similaire ce qui a t vu prcdemment, on montre que est valeur propre de T-1E. Cette valeur propre est relie aux valeurs propres de D-1E par:
=
1+

5- Analyse discriminante 13

Ce rapport exprime la proportion de la variabilit totale imputable aux diffrences entre les centres des groupes. Cette quantit est donc analogue au R2 en rgression. Pour cette raison, on dfinit 1/2 comme le coefficient de corrlation canonique ou pouvoir discriminant. Remarque: Le nom corrlation canonique fait rfrence une mthode appele analyse canonique. Cette mthode tudie deux ensembles de variables mesures sur un mme ensemble d'observations. Elle cherche les combinaisons linaires des deux ensembles de variables qui seront le plus corrles entre elles. En AD, les deux ensembles de variables sont d'une part les p variables mesures et d'autre part, les (k-1) variables indicatrices permettant d'identifier les groupes. La corrlation maximale que l'on peut obtenir entre ces deux ensembles de variables est prcisment 1/2

5.3.4 Test dgalit des matrices de covariances intra-groupes Le calcul des probabilits ainsi que les diffrents tests prsents prcdemment pour le V de Rao et le Lambda de Wilks ncessitent la multinormalit des observations et lgalit des matrices de covariances lintrieur de chaque groupe. On peut tester cette dernire hypothse par le test approximatif suivant (test de Kullback1 (1959)) ncessitant aussi la multinormalit des observations :

2 =
i =1

D* ni 1 ln 2 Di *

est approximativement distribu suivant une loi Khi2 avec (k-1)*n*(n+1)/2 d.l.. On rejette lhypothse dgalit des matrices de variance-covariance lorsque la statistique excde le seuil lu dans une table Khi2. D* est la matrice de variance-covariance intra-groupes Di* est la matrice de variance-covariance pour le groupe i ni est le nombre dobservations dans le groupe i n est le nombre total dobservations | | signifie le dterminant 5.4 Procdures de slection des variables On est souvent intress obtenir la meilleure discrimination possible avec le minimum de variables, possiblement pour des raisons d'interprtation, de robustesse des rsultats, de fiabilit, srement pour des raisons conomiques. En effet avec des analyses gochimiques, par exemple, si on obtient une aussi bonne (et parfois meilleure) discrimination avec trois variables qu'avec huit, on vient d'conomiser un cot considrable. Les mmes procdures vues en rgression peuvent tre utilises ici, i.e. slection avant, limination arrire et "stepwise". La section 5.3.3 a t consacre la dfinition de statistiques qui peuvent toutes servir de critre d'inclusion ou d'limination. D'autres critres sont prsents dans certains programmes d'analyse discriminante (ex. SPSS). Certains de ces critres permettent de vrifier si l'ajout d'une variable supplmentaire est significatif (ex. V de Rao) d'autres ne le permettent pas (Lambda de Wilks, pourcentage de bien classs, corrlation canonique).
1

Kullback, 1959, Information theory and statistics, Wiley, 395p.

5- Analyse discriminante 14

Malgr la diversit des mthodes, la pratique montre que le sous-ensemble de variables retenues est relativement robuste au choix du critre d'inclusion. De plus, mme si deux sous-ensembles diffrent quant aux variables retenues, trs souvent l'interprtation est identique et les performances (classement) trs comparables. Tout ceci est finalement rassurant pour l'utilisateur. 5.4.1 Exemple danalyse discriminante (2 groupes) Voici un exemple simul avec 100 observations et 6 variables. Le groupe 1 est form en prenant toutes les observations telles que x1+x2-x3-x4<0. La figure suivante montre que la discrimination nest pas parfaite sur tous les diagrammes binaires des variables x1 x4.
2 groupes, groupe 1: x1+x2-x3-x4<0; 4
2 2 2 2 2 2 2 22 2 2 2 12 2 1 22 2 2 2 2 2 2 12 2 1 111112 2 2 2 2 121 2 1 12 2 2 1 21 2 12 21 2 2 1 1 1 1112 22 111 2 1 1 2 21 2 1 1 1 1 1 1 11 2 11 111 1 1 2 1 2 1 1 1

4 2 x2 0 -2 -4 -5 4 2 x3 0 -2 -4 -5
1 1 11 1 1 1 1 2 2 1 1 1 21 22 1 2 12 1 1 22 1 1 11 21 22 2 122 2 1 1211 21 1 1 1 22 11 1 2 2 2 12 22 2 12 2 11 2 12 1 1112 2 12 2 2 22 21 2 2 2 12 2 2 2 22 2

2 x3 x4 0 -2 5 4 2 x4 0 -2 -4 -5
1 1 1 1 2 1 1 1 2 22 1 1 221 1 2 11 1 11 1 1 1 1 11 2 2 1 1 2 1 22 2 1 1 1 12 1 21 2 1 2 222 2 22 1 2 12 22 12 2 1 112 1 2 22 1 2 2 112 2 2 1 22 2 1 22 2 2 2 2 1 1 2 2 11 1 11 1 11 2 1 1 2 1 22 2 1 12 2 212 1 2 1 1 1 2 11 212 1 2 1 1 1 2 1 11 2 2 2 2 1 121 2 2 121 2 12 2 2 1 11 21 1 2 2 12 1 22 2 1 22 2 1 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2

2 0 -2 -4 -5 4 2 x4 0 -2 -4 -5

1 1 2 11 1 1 11 22 1 2 2 1 1 11 21 1 2 1 1 1 21 2 1 1 22 2 211 1 12 2 2 1 1 12 1 22 21 1 2 2 22 2 1 1 2 11 2 1 1 1221 2 2 2 222 1 2122 2 2 221 2 2 22 2 21 2 21 1 2 1 2

0 x1

-2

0 x1

0 x1
1 1 1

2 1 1 11 21211 2 2 1 11 1 1 1 2 2 1 1 212 1 2 12 22 1 1 1 2 2 21 1 2 2 1 1 2 1 111 221 2 1 2 22 11 1 1 22 2 12 2 1 21 2 2 2 21 2 21 22 2 22 221 2 2 1 1 2 1 2 2

0 x2

0 x2

0 x3

Les critres % de bien classs, lambda de Wilks et V de Rao slectionnent les variables 1 4 en premier. Le vecteur propre discriminant est [0.091 0.1 0.088 0.07]. Les projections sur ce vecteur sont reprsentes sur la figure suivante. Lon constate que : Le vecteur discriminant forme un angle de seulement 7.3o avec lquation relle de formation des groupes. Le % de bien classs est de 98%, nettement mieux que ce que lon pouvait accomplir visuellement sur les diagrammes binaires.

5- Analyse discriminante 15
Rsultats de l'AD; % bien classs 98% 10 9 8 7 6 5 4 3 2 1 0 -0.4 v.p. discriminant: -0.091X 1-0.1X 2+0.088X 3+0.07X 4 Class gr. 2 Class gr. 1 Gr. 1 Gr. 2

-0.3

-0.2

-0.1

0.1

0.2

0.3

0.4

0.5

5.5 Exemple d'application: indice de prospection gochimique. En Abitibi, les gisements de cuivre et de zinc sont, la plupart, considrs comme tant d'origine volcanogne. Ce mode de formation implique la circulation deau marine l'intrieur des empilements volcaniques. En circulant, cette eau altre la roche en lessivant certains lments (tels le Na2O et le CaO et en enrichissant d'autres lments tels le MgO et le K2O. Ces signatures gochimiques associes aux gisements volcanognes constituent des cibles de prospection des plus propices puisque leur tendue est bien plus grande que celle du gisement lui mme. Ces signatures peuvent toutefois varier de gisement en gisement aussi bien par les lments les plus affects que par l'tendue du halo d'altration. Afin de dfinir un indice de prospection unique pour les gisements volcanognes de l'Abitibi, Marcotte et David (1981) ont utilis l'analyse discriminante. Les donnes, 574 analyses gochimiques, provenaient de la littrature et les variables impliques taient les principaux lments majeurs. Seules des analyses provenant de roches volcaniques dcrites comme roches grain fin et ayant plus de 60% de SiO2 ont t utilises. Pour l'AD, deux groupes ont t forms selon un critre de distance. On fixait un seuil de distance par rapport au gisement le plus prs et on formait un groupe proximal et un groupe distal. L'analyse discriminante tait ensuite applique ces deux groupes. En faisant varier le critre de distance de 0.25 mille 1.5 milles par pas de 0.25 mille, on a pu dterminer, pour chaque gisement, quelle semblait tre l'extension du halo d'altration. Cette extension tait considre comme tant la distance laquelle les rsultats de l'AD taient optimaux pour le gisement considr. On a par la suite repris l'AD en adoptant cette fois comme critre de distance l'extension estime du halo pour chaque gisement. L'AD effectue avec ces groupes a donn plus de 80% de bien classs, un rsultat jug intressant. L'quation linaire discriminante retenue indiquait un lesssivage en Na2O, en CaO et en FeO et un enrichissement en MgO, rsultats compatibles avec ce qui tait dcrit dans la littrature. Indice= 1.91 - 0.63 Na2O - 0.26 CaO - 0.18 FeO + 0.30 MgO + 1.44 TiO2 Appliqu au gisement de Normtal (qui n'tait pas inclus dans l'analyse prcdente), l'indice a su dtecter la prsence du gisement. Une zone favorable situe plus au nord-ouest est galement indique. Quelques anomalies sont relies l'intrusion granitique situe au nord-ouest.

S-ar putea să vă placă și