Sunteți pe pagina 1din 4

Classication et s lection automatique de caract ristiques e e de textures

Marine Campedel et Eric Moulines


Ecole Nationale Sup rieure des T l communications e ee Laboratoire de Traitement du Signal et des Images 46, rue Barrault, 75013 Paris Marine.Campedel@enst.fr
RESUME. les outils de classication

dimages utilisent des mod` les vari s pour repr senter les textures. Nous proposons de choie e e sir les mod` les de texture les plus pertinents a laide dune proc dure automatique de s lection de caract ristiques. Nous come ` e e e parons pour cela lefcacit de plusieurs algorithmes a travers les performances de diff rents classicateurs. Nous d montrons e ` e e lint r t dune telle proc dure de s lection a partir des images de Brodatz. ee e e `
MOTS-CLES :

Classication, S lection de caract ristiques, Machines a vecteurs de support, Textures e e `

1. Introduction Face a laccroissement rapide des tailles des bases de donn es, en particulier des bases dimages, il est n cessaire ` e e de d velopper de nouveaux algorithmes de traitement facilitant a la fois le stockage et lindexation de ces donn es. e ` e Nous nous int ressons dans ce travail aux algorithmes de s lection de caract ristiques (appel es aussi descripteurs) e e e e supervis s, qui permettent dextraire une information non redondante et pertinente, en vue dune exploitation efe cace des bases de donn es. Ces algorithmes font lobjet dune litt rature abondante depuis une dizaine dann es e e e [GUY 03] . Les algorithmes dits lters exploitent les propri t s intrins` ques des caract ristiques utilis es, sans ee e e e r f rence a une quelconque application. Ceux appel s wrappers, au contraire, d nissent la pertinence des caee ` e e ract ristiques par linterm diaire dune pr diction de la performance du syst` me nal (classication par exemple). e e e e Nous avons choisi d tudier quatre algorithmes : RELIEFF [KIR 92, ROB 03], FISHER (appel aussi LDA ou e e analyse lin aire discriminante), RFE [GUY 02] et L0 [WES 03]. Ces trois derniers algorithmes calculent la pere tinence de chaque caract ristique a laide des poids estim s par un classicateur lin aire (Fisher ou SVM). Nous e ` e e nous int ressons aux machines a vecteurs de support (SVM) car elles limitent le risque de surapprentissage du fait e ` de leur capacit de r gularisation (ce risque etant particuli` rement important lorsque le nombre de caract ristiques, e e e e i.e. la dimension, est grand face au nombre de donn es). Les quatre algorithmes etudi s reposent sur lestimation de e e poids (scores) correspondant a chaque caract ristique. Ces poids sont utilis s pour ordonner puis s lectionner les K ` e e e (parmi D) descripteurs les plus pertinents (K est x par lutilisateur). Le probl` me du choix des bons descripteurs e e pour la classication dimages est un probl` me r current dans la litt rature [SEB 00, RUI 01]. Nous proposons e e e donc dy r pondre a laide de techniques de s lection automatiques. e ` e Nous appliquons nos diff rentes proc dures de s lection sur des images de textures issues de la base Brodatz, e e e an de d terminer les caract ristiques les plus discriminantes, parmi un ensemble calcul sur des matrices de coe e e occurrence (coefcients dits dHaralick [HAR 73]), des ltres de Gabor et diverses ondelettes. Lensemble de nos simulations seffectue a laide de loutil Matlab Spider d velopp par Elisseeff et Weston [WES 04]. Les textures ` e e

dimages sont calcul es a partir des implantations de Boland [BOL 98], de la librairie dondelettes de Pyr [SIM 01] e ` et des contourlets de [DO 03].

2. Les algorithmes de s lection e Soient les donn es e et les etiquettes associ es . Nous ne traitons que des etiquettes discr` tes. e e Les donn es sont num riques et multivalu es sur un espace initial de dimension D ( e e e ). Nous notons le score associ a la di` me caract ristique. Lorsque les proc dures de s lection sont relatives a un probl` me de e` e e e e ` e discrimination lin aire, ces poids correspondent aussi aux poids du classicateur. e RELIEFF Cet algorithme, introduit sous le nom de Relief dans [KIR 92] puis am lior et adapt au cas multi-classes e e e par Kononenko sous le nom de ReliefF, ne se contente pas d liminer la redondance mais d nit un crit` re e e e de pertinence. Ce crit` re mesure la capacit de chaque caract ristique a regrouper les donn es de m me e e e ` e e etiquette et discriminer celles ayant des etiquettes diff rentes. Lanalyse approfondie de ReliefF est effectu e e e dans [ROB 03]. FISHER Le deuxi` me algorithme choisi repose sur lanalyse discriminante lin aire (LDA) de Fisher. Nous utilisons e e limplantation de lalgorithme fournie par Spider [WES 04]. RFE Cet algorithme de s lection est pr sent dans [GUY 02]. Il repose lui-aussi sur lestimation de poids relatifs e e e a loptimisation dun probl` me de discrimination lin aire, ce probl` me etant r solu a laide dune machine ` e e e e ` a vecteurs de support (SVM). Il est montr dans [GUY 02] que le co t de suppression dune caract ristique ` e u e est de lordre de . La proc dure de s lection est d cr mentale et elimine donc progressivement les cae e e e ract ristiques de faible poids, obtenus par apprentissage dune SVM lin aire. Nous utilisons limplantae e tion faite dans loutil Spider. La proc dure est grandement acc l r e lorsque plusieurs caract ristiques sont e eee e elimin es simultan ment et lorsque lon stoppe la boucle d limination d` s obtention du nombre d sir de e e e e e e caract ristiques. e L0 Lalgorithme L0 pr sent dans [WES 03] utilise lui-aussi les poids estim s par un classicateur SVM. Lid e e e e e g n rale est cependant tr` s diff rente de SVM-RFE, puisquil sagit dans ce cas de favoriser la mise a zero e e e e ` du plus grand nombre de poids. Les auteurs proposent de trouver lensemble minimal de caract ristiques e ayant un poids non nul, en minimisant la norme L0 de ces poids. Le probl` me est r solu par une proc dure e e e it rative (convergeant vers un minimum local) utilisant lapprentissage dune SVM ainsi que la multiplication e des donn es dapprentissage par les poids de la SVM. Nous utilisons limplantation Matlab des auteurs de e lalgorithme.

3. Simulations 3.1. Proc dure d valuation e e An de comparer les r sultats des quatre algorithmes pr sent s ci-dessus, nous avons choisi d valuer les pere e e e formances en terme derreur de classication a laide de trois algorithmes classiques (Knn, Fisher, SVM). En ` pratique, nous effectuons une validation crois e : les quatre cinqui` mes des donn es sont utilis es pour la s lection e e e e e des caract ristiques et lapprentissage des classicateurs, la partie restante etant utilis e pour l valuation. La pere e e formance est mesur e par lerreur de classication moyenn e sur les cinq ensembles (disjoints) de test. e e Nous avons evalu les potentialit s de lensemble de la proc dure sur un probl` me synth tique (deux caract ristiques e e e e e e sont pertinentes, 6 autres sont des versions bruit es, les 42 restantes etant purement du bruit uniform ment distribu e e e sur [0 1]. Nous disposons de 400 donn es r parties en deux classes). Les r sultats sont pr sent s gure 1(gauche). e e e e e Les principales remarques sont :

$ %#

!  " 

   &$ '#

F IG . 1. Valeurs moyennes et ecarts types (barres verticales) obtenus sur 5 tirages. A gauche, le probl` me est e synth tique, les m thodes de s lection sont d sign es par un index correspondant a :1=RELIEFF 2=FISHER e e e e e ` 3=RFE 4=L0. A droite, sur les images de Brodatz, les m thodes sont 1=FISHER 2=RFE e

Le classicateur SVM obtient toujours les meilleures performances. Ceci est d a sa capacit intrins` que a u` e e ` g rer les el ments bruit s ; e e e RELIEFF et FISHER ne parviennent pas a s lectionner les deux descripteurs pertinents, contrairement a L0 ` e ` et RFE ; Lorsque 8 descripteurs sont s lectionn s, les deux pertinentes sont toujours dedans. Par contre, RELIEFF et e e FISHER privil gient lajout de caract ristiques redondantes, alors que L0 et RFE pr pond` rent les dimene e e e sions de bruit ; La performance d grad e pour 25 descripteurs met bien en evidence la n cessit de r duire les dimensions e e e e e redondantes ou bruit es ; e L0 et RFE ont des performances semblables, mais L0 pr sente linconv nient d tre beaucoup plus lent. e e e 3.2. Mod` les de texture e Lobjectif de cette simulation nest pas de rendre un verdict d nitif sur le choix des mod` les de textures. e e Il sagit de d crire une m thodologie de s lection automatique. Bien souvent les experts ont des pr f rences e e e ee diff rentes quant au mod` le de texture a utiliser. Estimer simultan ment tous ces mod` les introduit une redone e ` e e dance pr judiciable au niveau du stockage des caract ristiques comme au niveau de la performance de classicae e tion. Nous mettons donc en evidence lint r t dune s lection automatique des caract ristiques, parmi un ensemble ee e e pr s lectionn . Comme base de travail nous avons tir al atoirement 20 images de textures de Brodatz. Nous les ee e e e avons d compos es en 25 imagettes disjointes de taille 128x128. Chaque imagette est ensuite d crite par un vece e e teur de caract ristiques, r sultant de la concat nation de plusieurs vecteurs de textures. Les mod` les de textures e e e e utilis s sont : les coefcients dHaralick (13 types de statistiques calcul es sur la matrice de co-occurrence), des e e coefcients de Gabor et divers coefcients dondelettes (moyennes et variances sur chaque sous-bande). Au total, nous disposons de 234 caract ristiques normalis es (moyenne nulle et variance unitaire). e e

La meilleure performance de classication de cet ensemble de caract ristique est de e pour un classicateur SVM. Lorsque seules les caract ristiques dHaralick sont evalu es, on descend a une erreur moyenne de e e ` . Nous appliquons deux des proc dures de s lection, FISHER et RFE, aux descripterus dHaralick e e (cf gure 1). Les m mes performances de classication sont obtenues lorsquon ne conserve que 20 des 78 cae ract ristiques. En outre, il est int ressant de constater dans ce cas que les deux algorithmes ne s lectionnent pas e e e les m mes caract ristiques, bien que la performance SVM soit constante, ce qui signie que linformation utile e e nest pas perdue. Enn, nous constatons que RFE tend a etre plus s lective sur le type de statistique appliqu a la ` e e` matrice de co-occurrence.

4. Conclusion Nous avons montr dans cette etude la n cessit dappliquer une proc dure de s lection automatique de cae e e e e ract ristiques en vue dune t che de classication. Nous avons compar diff rents algorithmes de s lection (sue a e e e pervis s) r cents a laide des erreurs de classication induites. Nous avons montr leur efcacit a laide dun e e ` e e ` probl` me synth tique ainsi que dun probl` me de classication dimages de textures. e e e Nous pr conisons lusage dune proc dure de s lection, non seulement pour r duire lespace de stockage et e e e e am liorer les performances de classication, mais aussi pour justier le choix dun mod` le donn de caract ristiques. e e e e Dans l tude pr sent e ci-dessus, nous avons appliqu cette strat gie a la s lection de mod` les de textures. e e e e e ` e e Dans la plupart des syst` mes impliquant un grand nombre de donn es et de caract ristiques, les etiquettes associ es e e e e aux donn es ne sont pas connues. Nous nous int ressons donc maintenant aux algorithmes de s lection non supere e e vis s, qui exploite la capacit a clusteriser des donn es multivalu es ainsi quaux heuristiques permettant d valuer e e` e e e ces algorithmes.

5. Bibliographie

[BOL 98] B OLAND M., Programmation en C des coefcients dHaralick, 1998. [DO 03] D O M., V ETTERLI M., Contourlets, Beyond Wavelets, Academic Press, 2003. [GUY 02] G UYON I., Gene Selection for Cancer Classication using Support Vector Machines, Journal of Machine Learning Research, vol. 46, 2002, p. 389-422. [GUY 03] G UYON I., E LISSEEFF A., An introduction to feature and variable selection, Journal of Machine Learning Research, vol. 3, 2003, p. 1157-1182. [HAR 73] H ARALICK R., S HANMUGAM K., D INSTEIN I., Textural features for image classication, IEEE Transactions on Systems, Man, and Cybertinetics, vol. 6, 1973, p. 610-621. [KIR 92] K IRA K., R ENDELL L., A practical approach to feature selection, Proceedings of the International Conference on Machine Learning, vol. 1, 1992, p. 249-256. [KOH 97] KOHAVI R., J OHN G., Wrappers for feature subset selection, Artif. Intell., vol. 97, n 1-2, 1997, p. 273-324, Elsevier Science Publishers Ltd. [ROB 03] ROBNIK -S IKONJA M., KONONENKO I., Theoretical and Empirical Analysis of ReliefF and RReliefF, Journal of Machine Learning Research, vol. 53, n 1-2, 2003, p. 23-69, Kluwer Academic Publishers. [RUI 01] RUI Y., H UANG T., C HANG S., Image Retrieval : current techniques, promising directions and open issues, Journal of Visual Communication and Image Representation, vol. 10, 2001, p. 39-62. [SEB 00] S EBE N., L EW M., Wavelet Based texture Classication, IEEE International Conference on Pattern Recognition, vol. 3, 2000. [SIM 01] S IMONCELLI E., MatLab tools for multi-scale image processing, 2001. [WES 03] W ESTON J., E LISSEEFF A., S CHOLKOPF B., T IPPING M., Use of the Zero-Norm with Linear Models and Kernel Methods, Journal of Machine Learning Research, vol. 3, 2003, p. 1439-1461. [WES 04] W ESTON J., E LISSEEFF A., BAKIR G., S INZ F., The Spider for Matlab - v1.4, 2004.

[BLU 97] B LUM A., L ANGLEY P., Selection of relevant features and examples in machine learning, Artif. Intell., vol. 97, n 1-2, 1997, p. 245271, Elsevier Science Publishers Ltd.

   

   

S-ar putea să vă placă și