Sunteți pe pagina 1din 11

Similitudinea caracteristicilor în interogare

imagini pe bază de conţinut

În această secţiune voi prezenta cinci metode utilizate în calcularea


similitudinii color a imaginilor pe baza histogramelor. Aceste tehnici pot fi
utilizate în sistemele de căutare şi regăsire a imaginilor pe baza
caracteristicilor lor color.
Aşa cum s-a precizat anterior, histogramele indică distribuţia
culorilor într-o imagine sau regiune. Pentru că histogramele sunt distribuţii
discrete, ele pot fi reprezentate ca vectori de caracteristici într-un spaţiu M-
dimensional, unde M reprezintă numărul de culori distincte din histogramă.
Acest spaţiu se defineşte ca fiind spaţiul histogramă, HM.
Spaţiul histogramă HM se consideră un spaţiu metric, iar
histogramele h sunt puncte în acest spaţiu, dacă sunt adevărate următoarele
condiţii [17]: pentru fiecare pereche de histograme h i, hj poate fi găsit un
număr corespunzător v(h i,hj), numit distanţa între punctele h i si hj care
satisface următoarele:

1. v(hi,hj) = 0 ( identitate )
2. v(hi,hj) >= 0 ( ne-negativitate )
3. v(hi,hj) = v(hj,hi) >= 0 (dacă hi # hj) (comutativitate / simetrie )
4. v(hi,hq) <= v(hi,hj) + v(hj,hq) ( inegalitatea triunghiului )

Distanţe bazate pe forma Minkowski


Prima clasă de măsuri de disimilitudine se bazează pe forma
Minkowski. Fie hq histograma interogare şi h t histograma ţinta. Atunci
distanţa între cele două histograme se defineşte astfel [17]:

M-1
drq,t = (  | hq[m] - ht[m] |r ) (3.1)
m=0

Aşa cum se vede şi în figura 3-1, măsurarea disimilitudinii


histogramelor cu ajutorul formei Minkowski neglijează compararea
elementelor din histograme care sunt similare, dar nu identice. De exemplu,
o imagine roşu închis este egal diferită de o imagine roşie ca şi de o imagine
albastră.
Complexitatea metodei este O(m*n) unde m reprezintă numărul de
1
culori rezultate în urma procesului de cuantificare ( de exemplu: 166, sau 64
sau 512), iar n reprezintă numărul de imagini din baza de date.

hq[m]

ht[m]

m
Figura 3-1: Distanţele bazate pe forma Minkowski compară numai
elementele identice ale histogramelor

Intersecţia histogramelor

Swain şi Ballard au fost cei care au investigat utilizarea intersecţiei


histogramelor în regăsirea imaginilor color. Obiectivul lor a fost acela de a
găsi, cu ajutorul histogramelor color, obiecte cunoscute în cadrul imaginilor.
Atunci când mărimea obiectului q este mai mică decât mărimea imaginii t şi
histogramele nu sunt normalizate, avem: | hq | <= | ht |.
Intersecţia histogramelor hq şi ht este dată de [17], [7], [15]:
M-1
 min ( hq[m],ht[m])
m=0
d q,t = 1 -  (3.2)
| hq |
M-1
unde | h | =  h[m]
m=0

2
Ecuaţia de mai sus nu defineşte o distanţă validă pentru că nu este
simetrică: dq,t # dt,q, dar poate fi modificată în acest sens astfel:

M-1
 min ( hq[m],ht[m])
m=0
d' q,t = 1 -  (3.3)
min( | hq |, | ht | )

S-a arătat că atunci când histogramele sunt normalizate, astfel încât


| hq | = | ht | intersecţia histogramelor este dată de [17]:

M-1
dq,t =  | hq[m] - ht[m] | (3.4)
m=0

Se vede că dq,t este o metrică bazată pe forma Minkowski cu r=1.


Complexitatea metodei este O(m*n) unde m reprezintă numărul de
culori rezultate în urma procesului de cuantificare ( de exemplu: 166, sau 64
sau 512), iar n reprezintă numărul de imagini din baza de date.

Distanţa euclidiană între histograme

Distanţa euclidiană este o metrică bazată pe forma Minkowski cu


r=2. Dându-se două histograme hq si ht, atunci [17], [7], [15]:

M-1
dq,t =  ( | hq[m] - ht[m] | )2 (3.5)
m=0

Complexitatea metodei este, de asemenea,O(m*n) unde m


reprezintă numărul de culori rezultate în urma procesului de cuantificare, iar
n reprezintă numărul de imagini din baza de date.
În vederea creşterii eficienţei calculului distanţei euclidiene între
histograme, J.R.Smith în [3] a propus următoarea descompunere:

dq,t = hTqhq + hTtht -2 hTqht (3.5.1)


Atunci când | hq |= hTqhq =1 si | ht |= hTtht =1, avem:

dq,t =2-2 hTqht (3.5.2)

3
Conform acestei descompuneri, distanţa dq,t se calculează cu
ajutorul produsului între histograma interogare hq şi cea ţintă ht.

3.1.3 Distanţa Hamming pentru seturi binare

Se consideră cazul special în care histogramele sunt aproximate


prin seturi binare. Un set binar s este un vector binar în spaţiul binar M
dimensional BM.
Distanţa Hamming între seturile binare sq şi st, unde
| s | = m s[m], este [17]:
| sq - st |
dq,t =  (3.6)
| sq | | st |
Distanţa Hamming se calculează în mod eficient utilizând
operatorul OR exclusiv. Deci, este uşor de calculat, de aceea se utilizează
în aplicaţiile de baze de date cu imagini, baze de date de dimensiuni mari.
Complexitatea metodei este O(m*n), unde m şi n au aceeaşi
semnificaţie ca mai sus.
hq[m]

m
ht[m]

* * * * m
*
Figura 3-2: Distanţa Hamming între seturi color calculează OR exclusiv
între elemente. " * " indică poziţiile în care biţii diferă.

4
Distanţa pătratică
Distanţa pătratică compară toate elementele histogramelor şi
ponderează distanţa între elemente prin anumiţi factori.

Distanţa pătratică între histograme

Distanţa pătratică între histogramele h q şi ht este dată de formula


[17], [7], [15]:
M-1 M-1
dq,t =   (hq[m0] –ht[m0]) am0,m1 ( hq[m1]-ht[m1]) (3.7)
m0=0 m1=0
unde A=[a i,j], iar a i,j reprezintă similitudinea între elementele cu
indecşii i si j.
Metrica pătratică este o distanţă metrică adevărată când
a i,j = a j,i ( simetrie ) şi a i,i =1.
hq[m]

a i,j m

ht[m]

m
Figura 3-3: Distanţa pătratică compară toate elementele
histogramelor şi ponderează distanţa între elemente prin elementele a i,j.

5
Într-o implementare obişnuită, calculul distanţei pătratice este mult
mai complex decât cel al distanţelor bazate pe forma Minkowski, deoarece
calculează similitudinea încrucişată între toate elementele.
Complexitatea metodei este O(m^2*n) unde m reprezintă numărul
de culori rezultate în urma procesului de cuantificare ( de exemplu: 166, sau
64 sau 512), iar n reprezintă numărul de imagini din baza de date.
Tot în vederea scăderii timpului de lucru pentru distanţa pătratică
între histograme, J.R.Smith a propus în [3] o descompunere asemănătoare
cu cea din ecuaţia 3.5.1, şi anume:

dq,t = (hq-ht)T A( hq-ht) (3.7.1)

Precalculând q= hTqA hq, t= hTtA ht şi t= A ht, avem:

dq,t = q + t -2hTqt (3.7.2)

Fie M o permutare care sortează hq în ordinea descrescătoare.


Aplicând această permutare şi asupra t, şi notând fq= Mhq şi t= Mt,
obţinem

dq,t = q + t -2fTqt (3.7.3)

Astfel, sortând histograma interogare, elementele vectorului t sunt


accesate în ordinea descrescătoare a importantei lor pentru interogare. t se
calculează uşor din histograma h t. În aceste condiţii avem:

M-1
dq,t = q + t -2  fq[m] t [m] (3.7.4)
m=0

Oprind însumarea la k<M-1, se obţine o bună aproximare a


distanţei pătratice între histograme.
Această tehnică conduce la reducerea complexităţii algoritmului de
calcul pentru distanţa pătratică între histograme.
S-a constatat că aproximativ 80% din energia histogramei color a
unei imagini este conţinută în aproximativ k=10 din cele mai semnificative
culori. Când se utilizează numai k culori, cele mai semnificative,
complexitatea algoritmului este O(M logM +kN+N). Cele M logM operaţii
sunt necesare pentru a sorta histograma color a imaginii interogare, N este
mărimea bazei de date, iar M este numărul de culori utilizate.

6
Distanţa pătratică între seturi binare

Distanţa pătratică între două seturi binare sq şi st este dată de [17]:

M-1 M-1
dq,t =  (sq[m0] –st[m0]) am0,m1 ( sq[m1]-st[m1]) (3.8)
m0=0 m1=0

Complexitatea metodei este, ca şi în cazul distanţei pătratice între


histograme O(m^2*n).
Tehnica de calcul prezentată în 3.2.1 în vederea reducerii
complexităţii distanţei pătratice între histograme, se poate aplica şi la
distanţa pătratică între seturi color [3]. Pentru că sq  BM (sq este un vector
binar ), notând rt=Ast, avem:

dq,t = q + t -2  rt [m] (3.8.1)


m unde
sq[m]=1

Utilizând această formulă, se vor lua în considerare numai


elementele setului binar al imaginii interogare pentru care sq[m]=1.

Evaluarea eficacităţii regăsirii

Eficacitatea regăsirii

Scopul operaţiilor de indexare şi calcul al similitudinii este acela


de a obţine, pentru operaţia de regăsire, o performanţă bună. Performanţa
operaţiei de regăsire a informaţiei se măsoară, în mod normal cu ajutorul a
trei parametri:
 viteza
 reapel
 precizie
Aceşti trei parametri sunt determinaţi de schema de indexare şi
metoda utilizată pentru calculul similitudinii.
Semnificaţia parametrului viteză este evidentă, cu cât este mai
mare viteza, cu atât este mai mare performanţa.
Parametrii reapel şi precizie sunt utilizaţi împreună pentru a
măsura eficacitatea sistemului de regăsire [1], [7].
Parametrul reapel măsoară abilitatea sistemului de a regăsi
informaţia relevantă din baza de date. Se defineşte ca fiind citul dintre
7
numărul de articole de informaţie relevante regăsite şi numărul total de
articole relevante din baza de date [7], [12],39]. Pentru a testa performanţa,
trebuie determinat, de către un expert în domeniu, numărul de articole
relevante din baza de date, pentru fiecare interogare testată. Cu cât valoarea
acestui parametru este mai mare, cu atât performanţa este mai bună.
Precizia măsoară acurateţea operaţiei de regăsire. Se defineşte ca
fiind citul dintre numărul de articole relevante regăsite şi numărul total de
articole regăsite [7], [12], [39]. Dacă se ia în considerare numai acest
parametru, cu cât este mai mare precizia, cu atât este mai mare şi
performanţa operaţiei de regăsire.
Deci, dacă notăm cu A mulţimea de articole relevante, B mulţimea
de articole regăsite, iar a,b,c,d sunt definite astfel:
 a = articole regăsite şi relevante
 b = articole regăsite şi nerelevante
 c = articole neregăsite şi relevante
 d = articole neregăsite şi nerelevante

a c A(rel)

b d

B (reg)

Figura 3-4: A -mulţimea articolelor relevante; B -mulţimea


articolelor regăsite

atunci:

Reapel = a / ( a + c )
Precizie = a / ( a+b )

În practică, se iau în considerare cei doi parametri, reapel şi


precizie, împreună. În acest caz, cu cât este mai mare reapelul, cu atât
trebuie să fie mai mică precizia. Acest lucru se întâmplă datorită faptului că
în încercarea de a regăsi toate articolele relevante pentru o interogare, se pot
regăsi şi articole irelevante, ceea ce reduce precizia.
Un sistem cu valoare mare pentru parametrul reapel, dar cu o
valoare mică pentru parametrul precizie, va returna o listă lungă cu articole

8
regăsite, dar multe dintre ele irelevante. Pe de altă parte, un sistem cu
valoare mare pentru parametrul precizie, dar o valoare mică a parametrului
reapel indică faptul că multe articole relevante pentru interogare nu au fost
regăsite. Putem concluziona că un bun sistem de regăsire trebuie să dispună
de un echilibru între cei doi parametri. Pentru a compara performanţele a
două sisteme de regăsire, trebuie comparaţi ambii parametri. O modalitate
de a face acest lucru este de a determina valorile preciziei şi reapelului
(valori cuprinse între 0 şi 1) şi de a ridica un grafic reapel-precizie, pentru
fiecare sistem în parte, aşa cum se vede în figura 3-5. Sistemul care are
graficul mai depărtat de origine dispune de o performanţă mai bună.

Precizie

1 Reapel

Figura 3-5: Graficul reapel-precizie. Un sistem cu acest grafic


mai depărtat de origine are o performanţă mai bună.
Sistemul cu graficul B este mai bun decât cel cu graficul A.

Să presupunem că avem o bază de date cu 1,000 de articole de


informaţie, dintre care numai 10 sunt relevante pentru o anumită interogare,
iar răspunsul returnat de sistemul de regăsire la acea interogare este:

R,R,I,I,R,R,I,I,R,I,R,R,I,I,R

unde R reprezintă articol relevant, iar I articol nerelevant, în


accepţiunea judecăţii umane. Pentru sistem, toate articolele returnate sunt
9
considerate relevante, dar dintre ele numai o parte sunt relevante şi din
punct de vedere uman.
Perechile reapel-precizie se calculează în funcţie de numărul de
articole returnate, ca în tabelul de mai jos:

Nr.articole Reapel Precizie


returnate
1 1/10 1/1
2 2/10 2/2
3 2/10 2/3
4 2/10 1/2
5 3/10 3/5
6 4/10 4/6
7 4/10 4/7
8 4/10 4/8
9 5/10 5/9
10 5/10 5/10
11 6/10 6/11
12 7/10 7/12
13 7/10 7/13
14 7/10 7/14
15 8/10 8/15

Se observă că, pe măsură ce creşte numărul de articole returnate,


cu atât creşte reapelul şi scade precizia.
În evaluarea performanţei, perechile reapel-precizie se calculează
la intervale fixe ale parametrului reapel. De exemplu, precizia este calculată
atunci când valoarea parametrului reapel este 0.1,0.2,0.3,…0.9,1.0. Dacă la
aceeaşi valoare a parametrului reapel există mai multe valori ale
parametrului precizie, se face o medie aritmetică a acestor valori,
obţinându-se pentru sistem un set de perechi de forma

<valoare reapel - medie aritmetică a valorilor precizie>

La o valoare fixată a parametrului reapel, sistemul are o mai bună


performanţă cu cât precizia este mai mare.
Indecşii afectează ambii parametri, reapel şi precizie, deci
afectează eficacitatea sistemului. Dacă indexul nu captează toată informaţia
articolelor din baza de date, sistemul de regăsire nu este capabil să găsească
toate informaţiile relevante pentru o interogare, ceea ce conduce la o valoare
mică a parametrului reapel. Dacă indexul nu este precis, sistemul va regăsi
10
şi articole nerelevante pentru interogare, deci precizia va fi mică.
Metoda de măsurare a similitudinii este extrem de importantă şi
trebuie să corespundă judecăţii umane, altfel, precizia sistemului este
scăzută.

11

S-ar putea să vă placă și