Documente Academic
Documente Profesional
Documente Cultură
_ _
x
2
+y
2
1
V
pq
(x, y)f(x, y)dxdy (1)
o V
pq
dnote le conjugu complexe de V
pq
, lui-mme d-
ni comme :
V
pq
(, ) = R
pq
().e
iq
(2)
et R
pq
() =
p
k = |q|
|p k| pair
(1)
pk
2
p+k
2
!
pk
2
!
kq
2
!
k+q
2
!
k
A partir des quations (1) et (2), nous pouvons exprimer
les moments de Zernike dune image tourne dun angle
autour de son origine en coordonnes polaires :
Z
pq
= Z
pq
e
iq
(3)
Lq. (3) prouve linvariance en rotation du module des
moments de Zernike puisque |Z
pq
e
iq
| = |Z
pq
|. Grace
la proprit dorthogonalit, la reconstruction dune
image peut simplement tre exprime comme la somme de
chaque fonction de base de Zernike pondre par le mo-
ment correspondant :
f(x, y) =
(p,q)D
Z
pq
V
pq
(x, y) (4)
3 Mesure de Similarit et angle de
rotation
3.1 Lapproche classique
La manire habituelle de comparer deux descripteurs de
Zernike est une simple distance euclidienne entre les mo-
dules des moments [?] :
d
2
=
(p,q)D
(|Z
pq
| |Z
pq
|)
2
(5)
Par la suite, nous la dsignerons comme la comparaison
"classique". Lavantage de perdre les informations de phase
- cela permet linvariance en rotation - empche aussi mal-
heureusement de rcuprer langle de rotation entre les
images, car cette information est code sur la phase des
moments. Un corollaire est que deux images symtriques
sont considres comme identiques tant donn que leurs
modules sont les mmes. Cela peut tre un inconvnient
majeur pour une application qui doit traiter comme dif-
frentes des images symtriques (e.g. la reconnaissance
2D-3D, qui vise rcuprer le point de vue dobjets 3D
potentiellement symtriques comme des voitures ou des
personnes). La gure 1 prsente un court exemple de re-
cherche dimages qui illustre la supriorit de lapproche
propose sur lapproche classique en terme de capacit de
gnralisation.
(a) le croquis retrouver :
rang 1
er
2
me
3
me
4
me
comparaison classique
(sans la phase)
distance (a) : 7130.2 7345.5 7515.0 8200.9
comparaison propose
(avec la phase)
distance (a) : 2110.3 2339.0 2406.4 2683.1
FIGURE 1 Les quatre meilleurs rsultats pour la re-
cherche dun dessin de coq (a) dans une base de donne
de plus de 200 logos en noir et blanc. Les rsultats sont
tris par score de similarit (une distance de zro signie
une similarit complte) pour chaque comparateur.
3.2 Le comparateur propos
Notre nouveau comparateur fournit un score de similitude
plus robuste que la mthode classique et rcupre en plus
un angle de rotation prcis entre les deux images. Langle
est considr comme optimal au sens o la distance eucli-
dienne entre la premire image et la deuxime aprs rota-
tion est minimis. Soit I et J deux images diffrentes, et
(J
x
2
+y
2
1
(I(x, y) (J
)(x, y))
2
(6)
Notre objectif est de minimiser cette expression en fonction
de langle de rotation . En remplaant I et (J
) par
leurs moments de Zernike correspondants Z
I
pq
et Z
J
pq
e
iq
(4), nous obtenons (7) puis (8) :
d
2
I,J
() =
x
2
+y
2
1
_
_
(p,q)D
Z
I
pq
.V
pq
(x, y)
(p,q)D
Z
J
pq
e
iq
.V
pq
(x, y)
_
_
2
(7)
=
(p,q)D
Z
I
pq
Z
J
pq
e
iq
V
pq
, V
pq
_
(8)
o V
pq
, V
uv
dnote le produit scalaire de deux fonctions
de base de Zernike sur le disque unit. Grace lortho-
gonalit de la base, ce produit est nul sauf pour le cas
(p, q) = (u, v), o il se simplie en
V
pq
, V
pq
_
=
p+1
.
Lquation (8) peut tre rcrite en lq. (9) (voir page
suivante), avec |Z
pq
| et [Z
pq
] respectivement le module et
largument de Z
pq
. Le paramtre tant uniquement pr-
sent dans le terme cosinus, minimiser la formule (9) revient
donc minimiser une somme de cosinus.
En pratique, seule une partie des moments de Zernike est
utilise (car cela apporte de la robustesse au descripteur) ;
nanmoins la mthode propose reste valable : simplement,
elle peut tre considre comme un moyen rapide de calcu-
ler la distance euclidienne entre les deux images oues (i.e.
leur reconstruction depuis un sous-ensemble de moments)
en utilisant leur projection dans lespace de Zernike. La
section suivante porte sur la rsolution de la minimisation
tout en garantissant un temps de calcul rapide.
4 Recherche efcace du minimum
En supposant que les moments de Zernike de chaque image
soient connus jusquau N
me
ordre, la somme est initiale-
ment compose denviron (N +2)
2
/4 cosinus, nanmoins
rductibles en N cosinus grce la formule A
1
cos(q +
B
1
) + A
2
cos(q + B
2
) = |C| cos(q + [C]) o C =
A
1
e
iB
1
+A
2
e
iB
2
. Lquation (9) peut donc scrire sous la
forme :
f
N
() =
N
q=1
A
q
cos(q + B
q
) (10)
On peut remarquer que f
N
() est une fonction 2-
priodique qui possde un spectre de Fourier discret born
par une frquence maximale f
MAX
N
= N/2. Le thorme
dchantillonage de NyquistShannon nous apprend que la
fonction ne peut pas changer substantiellement entre deux
points dchantillonnage conscutifs pris la frquence de
Nyquist F = 1/T = N/. La distance minimale entre
deux minima conscutifs est donc borne par /N. En d-
coupant f
N
en 4N intervalles, nous sommes sr que seule-
ment un minimum ou un maximum est prsent dans chaque
intervalle. En pratique il suft de regarder la valeur de la
drive en chaque point dchantillonage pour savoir si un
minimum se trouve dans lintervalle, et dapproximer sa
position par un polynome du second degre. Cette simple
approximation est sufsament prcise relativement nos
objectifs.
Finalement, la complexit algorithmique de notre approche
reste identique celle du comparateur classique (voir
lquation (5)), savoir O(N
2
).
5 Rsultats exprimentaux
5.1 Etude comparative de la mesure de simi-
larit
Pour valuer notre mthode avec lexistant, nous avons ras-
sembl 502 imagettes en niveau de gris (dont environ 25%
en noir et blanc) de taille 100 100 pixels. Certaines sont
prsentes dans la gure 2. Nous avons ensuite gnr syn-
thtiquement des images altres partir de ces originals.
Ce que nous dsignons comme altration comprend soit un
bruit additif uniforme, soit une dformation non-afne, soit
une occultation partielle, soit une translation. Ces quatre
types daltration ont t utiliss pour crer quatre bases de
test.
FIGURE 2 Quelques unes des 502 imagettes utilises
dans les expriences.
Construction des bases de test Pour chaque base, lal-
tration est applique graduellement selon 19 niveaux. En
dtail, les quatre types daltrations sont :
1. Un bruit additif uniforme tel que le SNR varie de
30dB (niveau 1) 1.5dB (niveau 19).
2. Une dformation continue non-afne dont lampli-
tude varie de 1 (niveau 1) 25 pixels (niveau 19) au
plus.
3. Une occultation partielle par une autre image ala-
toire, colle par dessus la premire avec de la trans-
parence. La surface recouverte varie de 2.5% 47.5%
(niveau 19).
4. Une translation de direction alatoire et damplitude
allant de 0.4 (niveau 1) 7 pixels (niveau 19).
Dans chaque base, lensemble compos du modle origi-
nal et de ses 19 versions progressivement altres (soit 20
images) constitue une classe. Un exemple dune image al-
tre diffrents niveaux et pour chaque altration est pr-
sente en gure 3.
Evaluation par rapport au comparateur classique.
An de juger de manire exhaustive notre approche par
rapport au comparateur classique, nous avons considr
d
2
I,J
() =
(p,q)D
p + 1
Z
I
pq
Z
J
pq
e
iq
2
=
(p,q)D
p + 1
e
i[Z
I
pq
]
_
Z
I
pq
Z
J
pq
e
i(q+[Z
J
pq
][Z
I
pq
])
_
2
=
(p,q)D
p + 1
e
i[Z
I
pq
]
2
.
Z
I
pq
Z
J
pq
e
i(q+[Z
J
pq
][Z
I
pq
])
2
=
(p,q)D
p + 1
_
Z
I
pq
2
+
Z
J
pq
2
2
Z
I
pq
Z
J
pq
cos(q + [Z
J
pq
] [Z
I
pq
])
_
(9)
un problme type de classication, comme dans [?]. Pour
chaque base de test, nos mesures portent sur :
Les valeurs de rst et second-tier, compte-tenu des
classes prcdemment dnies, qui reprsentent la capa-
cit de classication des diffrents comparateurs et per-
mettent leur valuation des ns dindexation.
Le taux derreur sur la recherche de loriginal : partir
dune image altre, nous essayons de retrouver lorigi-
nal. Contrairement aux mesures de rst et second-tier,
celle-ci correspond un scnario raliste didentica-
tion.
FIGURE 3 Illustration des quatres types daltration :
bruit additif, dformation, occultation et translation. Dans
chaque groupe, le 6
me
, 13
me
et 19
me
niveau daltration
sont prsents.
First et second-tier Une manire indirecte de comparer
la prcision en fonction du rappel pour chaque mthode est
de mesurer les valeurs de rst et second-tier. Lexprience
consiste rechercher une image P de la base de test parmi
toutes les autres, puis de trier les rsultats par score de si-
milarit et enn de compter le nombre A de rponses cor-
rectes (cest--dire de la mme classe que P) dans les N
meilleures rponses. Les scores de rst-tier et de second-
tier valent alors A/20 pour N = A
max
et N = 2A
max
,
respectivement.
Comme lillustre le tableau 1, le comparateur propos
fonctionne toujours mieux que le classique. Le gain est par-
ticulirement lev pour le bruit additif et la dformation,
o la mthode propose se rvle jusqu 6,8% et 5,6%
meilleure respectivement en terme de mesure du rst tier.
Identication de loriginal Nous avons galement
conduit des expriences de reconnaissance qui consistent
retrouver, partir des 9 538 images altres de chaque base
de test, loriginal correspondant (parmi les 502 originaux).
La gure 4 afche le pourcentage derreurs (une image er-
rone est retourne en premire position) pour les deux
comparateurs, en fonction du niveau daltration. Globale-
ment, le comparateur propos fait environ deux fois moins
derreurs pour une altration moyenne, sauf dans le cas
doccultation o notre mthode fait environ 15% de moins
derreurs.
0 5 10 15 20
0%
25%
50%
75%
100%
38%
20%
Bruit
0 5 10 15 20
0%
10%
20%
30%
40%
20%
9%
Dformation
0 5 10 15 20
0%
20%
40%
60%
80%
66%
55%
Occultation
0 5 10 15 20
0%
20%
40%
60%
35%
17%
Translation
Comparateur classique Comparateur propos
FIGURE 4 La proportion derreur de reconnaissance
quand on essaye de retrouver limage originale (parmi les
502) partir dune version altre, pour chaque compara-
teur. Le pourcentage derreurs est prcis au 15
me
niveau
daltration.
Comparaison avec le hashage gomtrique et la trans-
forme de Hough gnralise. Nous avons galement
voulu valuer notre approche avec deux mthodes de com-
paraison dobjets/dessins de ltat de lart : le hachage go-
mtrique [12] et la rcente transforme de Hough gnra-
lise tolrante la dformation (DT-GHT) dAnelli et al.
[13].
Le hachage gomtrique ncessite des points caract-
ristiques, par consquent nous avons extrait les points
dintrt de Harris et de DoG dans chaque image. Pour
une image, le descripteur consiste en une liste de ses 15
points les plus forts en termes de rponse. Nous avons
Bruit Dformation Occultation Translation
1
st
tier 2
nd
tier 1
st
tier 2
nd
tier 1
st
tier 2
nd
tier 1
st
tier 2
nd
tier
Comparateur classique 82.9% 86.2% 77.9% 84.8% 44.2% 50.8% 68.7% 75.9%
Comparateur propos 89.7% 92.0% 83.5% 88.9% 47.2% 53.3% 71.6% 78.3%
Diffrence +6.8% +5.9% +5.6% +4.1% +3.0% +2.5% +2.9% +2.4%
TABLE 1 Comparaison des mesures de rst tier et second tier pour chaque base de test.
Mthode temps (s)
Zernike classique 0.002
Zernike propose 0.057
DT-GHT 37.2
hachage gomtrique 26.9
TABLE 2 Temps moyen de calcul ncessaire pour 1000
comparaisons pour chaque mthode (temps mesurs sur un
ordinateur cadenc 2 GHz). Les descripteurs de Zernike
contiennent 49 moments (N=12).
constitu une table de hachage pour chaque base de test.
Dans ltape de recherche, nous extrayons les 25 points
les plus forts sur limage identier et nous les projetons
sur la table de hachage apprise pour diffrentes bases
alatoires (50 essais). Les meilleurs scores, enregistrs
pour chaque modle appris, constituent les distances cor-
respondantes.
Dans le cas de la DT-GHT [13], chaque modle est
dabord index (i.e. extraction des contours par ltre de
Canny, construction dune R-table). Ensuite, pour com-
parer deux images, nous cherchons la premire (le mo-
dle) dans la seconde.
Temps dexcution Le tableau 2 donne une comparai-
son du temps de calcul ncessaire pour chaque mthode.
Mme si notre mthode est plus lente que la comparai-
son classique, les deux temps de traitement sont trs faibles
(moins de 60 millisecondes pour 1000 comparaisons). La
DT-GHT et le hashage gomtrique sont plusieurs ordres
de grandeur plus lents (37 et 27 secondes respectivement
pour 1000 comparaisons).
Comparaison des mthodes An de nous comparer
ces mthodes, nous avons calcul les mesures de rst et
second-tier sur des bases rduites (100 imagettes 5 ni-
veaux daltrations : 3, 7, 11, 15 et 19) pour des raisons
de temps de calcul (voir table 2). Le tableau 3 illustre les
rsultats. Dans le cas de la translation, le hachage gom-
trique et la DT-GHT donnent des rsultats suprieurs en
raison de leur invariance en position. Pour toutes les autres
altrations, notre approche donne des rsultats suprieurs
la DT-GHT et au hachage gomtrique en termes de me-
sures de rst et second-tier ; dans le cas du bruit, la m-
thode propose fonctionne mme largement mieux car, le
bruit, localis dans la hautes frquences, a peu deffet sur
les moments de Zernike de bas ordre. Inversemment, le ha-
Kim and Kim mthode propose
pas daltration 0.61 0.57
Bruit additif 1.13 0.42
Dformation 2.96 1.62
Occultation 27.3 23.4
Translation 17.1 12.8
TABLE 4 Lerreur RMS moyenne sur langle de rotation
en utilisant lestimateur de Kim et Kim [11] et la mthode
propose.
chage gomtrique ralise de faibles scores dans tous les
cas sauf pour la translation, puisque la position et la r-
ponse des points dintrt sont fortement perturbes pour
les images altres.
5.2 Angle de rotation
Nous avons men des expriences pour dmontrer la prci-
sion de notre approche dans le cas spcique de lestima-
tion dangle de rotation entre des images altres. Les tests
ont t effectus sur la prcdente collection de 502 ima-
gettes. Les images ont dabord subi des rotations dangles
alatoires. Ensuite, diverses altrations (les mmes quen
5.1) leur ont t appliques. Enn, nous avons estim leur
angle de rotation par rapport au modle original, laide
de lalgorithme propos (avec 25 moments de Zernike)
et dune seconde mthode, connue comme la plus perfor-
mante de ltat de lart : lestimateur robuste de Kimet Kim
[11]. Le nombre total dimages de test est donc 200 800 :
502 10 (le nombre de rotations) 10 (le nombre de ni-
veaux daltrations) 4 (le nombre de types daltration).
Pour chacune des quatre bases de test, nous avons calcul
lerreur quadratique moyenne (RMS) sur langle estim
avec chaque algorithme. Les rsultats sont prsents dans
le tableau 4. Lerreur RMS de notre mthode est systmati-
quement infrieure celle de lestimateur de Kim et Kim,
pour tous les types daltration. En particulier, dans le cas
du bruit additif et de la dformation, la mthode propose
permet dobtenir des rsultats dont la prcision est environ
deux fois suprieure lestimateur de Kimet Kim. Locclu-
sion et la translation produisent eux une importante erreur
RMS : dans le premier cas, cela vient du fait que, parfois,
des parties essentielles de limage (en termes dindices de
rotation) sont occultes ; dans le second cas, cest cause
du dcalage du centre de rotation.
Bruit additif Dformation Occultation Translation
1
st
tier 2
nd
tier 1
st
tier 2
nd
tier 1
st
tier 2
nd
tier 1
st
tier 2
nd
tier
mthode propose 93.4% 95.6% 88.6% 93.6% 52.9% 60.6% 78.0% 85.2%
DT-GHT 75.5% 79.4% 88.4% 93.6% 43.5% 49.4% 96.5% 98.4%
hashage gomtrique 62.0% 63.6% 57.2% 60.2% 47.8% 49.9% 86.9% 87.4%
TABLE 3 Comparaison des mesures de rst et second tier pour chaque comparateur et pour chaque type daltration. En
gras, les meilleurs scores pour chaque mesure.
6 Conclusion et discussion
Nous avons prsent un comparateur efcace de descrip-
teurs de Zernike dont la nouveaut est de tirer partie de
linformation de phase dans le processus de comparaison
tout en prservant linvariance en rotation. La mesure de si-
milarit renvoye est plus robuste aux diffrents bruits (en
particulier la dformation et le bruit additif) ; en particu-
lier les erreurs de reconnaissance sont deux fois moindre
en moyenne quavec le comparateur classique de rf-
rence. En outre, notre approche a le mme complexit en
O(ordre
2
). Enn, notre comparaison fournit en plus une
estimation de langle de rotation plus performante que celle
de lestimateur robuste de Kim et Kim [11]. Cette nouvelle
contribution thorique peut sappliquer toute application
utilisant dj les moments o les pseudo-moments de Zer-
nike [14].
Rfrences
[1] M.R. Teague. Image analysis via the general theory
of moments. J. Optical Soc. Am., 70(8) :920930,
August 1980.
[2] S.O. Belkasim, M. Shridhar, et M. Ahmadi. Pat-
tern recognition with moment invariants : A compa-
rative study and new results. Pattern Recognition,
24(12) :11171138, 1991.
[3] S.X. Liao et M. Pawlak. On image-analysis by mo-
ments. IEEE Transactions on Pattern Analysis and
Machine Intelligence, 18(3) :254266, March 1996.
[4] Chee-Way Chong, P. Raveendran, et R. Mukundan.
A comparative analysis of algorithms for fast com-
putation of Zernike moments. Pattern Recognition,
36(3) :731742, 2003.
[5] Chong-Yaw Wee et Raveendran Paramesran. Ef-
cient computation of radial moment functions
using symmetrical property. Pattern Recogn.,
39(11) :20362046, 2006.
[6] Chong-Yaw Wee et Raveendran Paramesran. On the
computational aspects of Zernike moments. Image
Vision Comput., 25(6) :967980, 2007.
[7] L. Kotoulas et I. Andreadis. Real-time computation
of Zernike moments. IEEE Transactions on Circuits
and Systems for Video Technology, 15(6) :801809,
June 2005.
[8] Gholamreza Amayeh, Ali Erol, George Bebis, et Mir-
cea Nicolescu. Accurate and efcient computation of
high order Zernike moments. Dans ISVC, pages 462
469, 2005.
[9] B.S. Reddy et B.N. Chatterji. An fft-based technique
for translation, rotation, and scale-invariant image re-
gistration. IEEE transactions on image processing,
5(8) :12661271, August 1996.
[10] Levent Burak Kara et Kenji Shimada. Sketch-based
3d-shape creation for industrial styling design. IEEE
Comput. Graph. Appl., 27(1) :6071, 2007.
[11] Whoi-Yul Kim et Young-Sung Kim. Robust rotation
angle estimator. IEEE Transactions on Pattern Analy-
sis and Machine Intelligence, 21(8) :768773, 1999.
[12] H.J. Wolfson et I. Rigoutsos. Geometric hashing :
an overview. Computational Science & Engineering,
IEEE, 4(4) :1021, 1997.
[13] M. Anelli, L. Cinque, et Enver Sangineto. Deforma-
tion tolerant generalized hough transform for sketch-
based image retrieval in complex scenes. Image Vi-
sion Comput., 25(11) :18021813, 2007.
[14] Cho-Huak Teh et Roland T. Chin. On image analy-
sis by the methods of moments. IEEE Trans. Pattern
Anal. Mach. Intell., 10(4) :496513, 1988.