Documente Academic
Documente Profesional
Documente Cultură
Ionu Mironic
Conceptul de Indexare Automat dup
Coninut n Contextul Datelor Multimedia
Bucureti, 2013
Prefat a
Ce vrea sa zica asta - indexarea dupa cont inut - cititorul
va gasi n primul capitol, dar sunt tentat sa zic si aici, n
aceste randuri, cateva cuvinte: problema nu e chiar noua.
Cu ceva zeci de ani n urma am aat ca pe alte meleaguri
oamenii se ocupau, pentru cuvinte, cu alcatuirea unor ase-
menea dict ionare. Cele alfabetice, pe care le avem si noi, t i
explica ce vrea sa zica un cuvant pe care l ai dar al carui
sens nu l stii; dar sunt si probleme de alt fel: acolo era
un exemplu de ntamplare n academia spaniola - un vorbitor nu-si aducea
aminte cum se cheama un om nascut pe vapor (noi n-avem cuvant pentru
acest concept). Ne trebuie dict ionare care sa ne duca de la concept la cuvant.
Despre unele popoare primitive se zice ca aveau zeci de cuvinte pentru a de-
numi diferite tipuri de nori; noi n-avem, dar am putea eventual descrie forma
lor, miscarea lor, ca sa precizam la care ne referim cand vrem sa povestim o
nt amplare concreta.
A CONT INUT 8
datelor.
Astfel, n cazul unei indexari dupa criterii complexe de cont inut, adnota-
rea manual a este foarte dicil de realizat, deoarece necesita un numar impor-
tant de operatori umani. Acestia ar trebui sa rasfoiasca manual ntregul
cont inut al bazei de date pentru denirea indicilor de cont inut. Luand n
calcul faptul ca o astfel de colect ie de date este n prezent practic nelimitata
(exemplul sunt colect iile de pe Internet), indexarea manuala devine impo-
sibil a.
In acest moment, cercetarile existente n domeniu se focalizeaz a pe
dezvoltarea de algoritmi de adnotare automata a cont inutului, mai ales n ca-
zul datelor ce necesita un timp important pentru vizualizare, ca de exemplu
documentele video.
Cu toate ca adnotarea cont inutului datelor este solut ia optimala pentru
a accesa informat ia util a dintr-o vasta colect ie de date, aceasta nu este si
sucienta. Adnotarea n sine nu ofera decat o serie de date suplimentare,
putem spune, de nivel semantic inferior (low-level), care deseori sunt inac-
cesibile utilizatorului neavizat. Pentru a accesa baza de date, utilizatorul
trebuie sa dispuna de o modalitate prin care sa poata accesa sau vizualiza
usor datele, e pe baza indicilor, e n mod direct. Aceasta trebuie sa aiba o
funct ionalitate naturala si intuitiva. Sistemul care permite utilizatorului sa
vizualizeze cont inutul bazei de date poarta numele de sistem de navigare.
Pe de alta parte, accesul la date presupune un proces de cautare. Utiliza-
torul trebuie sa mai dispuna, pe langa sistemul de navigare, de un mecanism
care sa-i permita cautarea informat iilor dorite n baza de date. Cautarea
se realizeaza prin formularea de cereri de cautare sau queries. Pentru
usurint a, o astfel de cerere trebuie sa e exprimata ntr-un limbaj natu-
ral, apropiat de limbajul uman, cum ar de exemplu cauta lmele de
act iune sau cauta imaginile ce cont in peisaje. Sistemul care raspunde
acestor cerint e poarta numele de sistem de cautare. Figura 2.1 sintetizeaza
aceste aspecte prezentand schematic modul de funct ionare al unui sistem
generic de indexare a datelor.
Astfel, pentru a sintetiza, mecanismul de indexare si cautare a datelor
presupune realizarea urmatoarelor etape:
descrierea cont inutului datelor: ntr-o prima etapa, informat ia
propriu-zisa din baza de date este reprezentata prin intermediul atri-
butelor de cont inut, informat ii pe baza carora se realizeaza ntregul
proces de indexare (vezi Sect iunea 2.1);
formularea cererii de cautare: utilizatorul furnizeaza o descriere a
datelor pe care doreste sa le gaseasca prin formularea unei cereri de
cautare (query). Acest lucru poate realizat folosind un exemplu
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP
A CONT INUT 9
atribute inut de con
Baza de date
datele
propriu-zise
rezumate de
coninut
Interfaa cu utilizatorul
navigare
cutare
Figura 2.1: Principiul de funct ionare al unui sistem de indexare dupa
cont inut.
a ceea ce cauta, folosind o descriere textuala a cont inutului datelor
cautate, pe baza unei descrieri grace schematice a propriet at ilor da-
telor cautate si asa mai departe (vezi Sect iunea 2.2);
conversia n descriptori: sistemul de cautare traduce cererea utili-
zatorului n atribute de cont inut folosind un mecanism similar cu cel
folosit la adnotarea cont inutului bazei de date. Acesti descriptori pot
proprietat i de culoare, forme, informat ie audio sau de miscare (vezi
Sect iunea 2.1);
cautarea propriu-zisa: cautarea se realizeaza prin compararea atri-
butelor cererii de cautare cu cele deja stocate n baza de date. Folosind
diverse masuri de distant a si similaritate ntre atribute, sistemul va
cauta datele ce sunt cele mai apropiate (similare) de criterile formulate
(vezi Sect iunea 2.3);
interact ia cu utilizatorul: rezultatele cautarii sunt furnizate utili-
zatorului de regula folosind sistemul de navigare. Acesta presupune o
interfat a vizuala intuitiva n care utilizatorul poate vizualiza ecient
cont inutul datelor.
In mod opt ional, sistemul poate interact iona cu
utilizatorul (feedback) pentru a mbunatat ii performant ele sistemu-
lui, de exemplunregistr and opinia utilizatorului cu privire la relevant a
datelor returnate de sistem (vezi Sect iunea 2.4).
A CONT INUT 10
2.1 Descrierea cont inutului datelor
Intr-o prima etapa, informat ia propriu-zisa din baza de date este reprezentata
prin intermediul atributelor de cont inut. Sistemul va genera pentru ecare
document o colect ie de atribute ce vor caracteriza proprietat ile relevante
ale cont inutul acestuia (denumit i si descriptori ). De exemplu, documentul
X poate descris de atributele A
1
, A
2
, ..., A
n
unde valorile {a
1
, a
2
, ..., a
n
}
formeaza descriptorul de cont inut. Atributele denesc ceea ce numim spat iul
de caracteristici al datelor, de regula un spat iu n-dimensional.
Atributele pot , e date de nivel semantic scazut, precum masuri sta-
tistice, parametri numerici (de exemplu: histograme de culoare
1
, campuri
vectoriale de miscare, histograme de orientare a contururilor din imagine),
e date simbolice de nivel semantic superior (de exemplu: nume obiecte de
interes, percept ia culorilor, recunoastere text ncrustat n imagine, iden-
ticarea prezent ei umane). Cu alte cuvinte, informat ia init iala heterogena
si multimodal a a fost convertita la o reprezentare uniforma ntr-un sistem
unitar normalizat denit de spat iul de caracteristici. Fiecare document va
caracterizat astfel de o anumita valoare a acestor atribute, denind un punct
unic n spat iu.
Pentru a ilustra aceste aspecte, n Figura 2.2 am prezentat un exemplu
concret de reprezentare a cont inutului n cazul nregistrarilor audio (si n
particular al sunetelor animalelor). Spat iul de caracteristici este denit n
acest caz de trei atribute si anume: entropia Wiener
2
(A
1
), amplitudine
(A
2
) si continuitate n timp (A
3
) (spat iu tridimensional). Astfel, ecare
punct din spat iu, P
i
(reprezentat grac de un cerc) cu i = 1, ..., N unde N
reprezinta numarul de nregistrari disponibile, reprezinta o nregistrare audio
al c arei cont inut a fost descris de valorile atributelor A
1
, A
2
, A
3
, si anume
P
i
= {a
i1
, a
i2
, a
i3
} (vezi si Sect iune 4 relativa la fuziunea descriptorilor). Daca
atributele sunt sucient de discriminatorii, nregistrarile audio similare din
punct de vedere al cont inutului trebuie sa conduca la puncte apropiate spat ial
(vezi cercurile de aceeasi culoare) n timp ce nregistrarile diferite trebuie sa
conduca la puncte distant ate spat ial (vezi punctele de culori diferite).
Tot n aceasta etapa a descrierii cont inutului datelor, opt ional, se pot
1
histograma unei imagini este o masura a probabilitat ilor discrete de aparit ie a culorilor
(sau a intervalelor de culoare denumite si bini) n imagine, valorile acesteia reprezentand
numarul de aparit ii al unei culori raportat la numarul total de pixeli. Astfel, histograma
are sens de densitate de probabilitate a variabilei aleatoare determinata de valoarea unui
pixel.
2
entropia Wiener este denita ca ind o masura a lat imii si uniformitat ii spectrului
de putere audio. Ca referint a, pe o scala de la 0 la 1, zgomotul alb (semnal aleator cu
densitate spectrala de putere constanta) are o entropie 1 iar un ton pur are o entropie 0.
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP
A CONT INUT 11
entrop e Wiener i
amplitudine
continuitate n timp
query
1
2
3
4 ...
Figura 2.2: Exemplu de spat iu de caracteristici n cazul cont inutului au-
dio (sursa imagine programul de prelucrare audio Sound Analysis Pro,
http://soundanalysispro.com/).
genera descrieri compacte, precum scurte rezumate pentru secvent ele video
sau pasaje de text reprezentative pentru documentele textuale. Rolul aces-
tor rezumate este acela de a ecientiza vizualizarea cont inutului datelor. De
exemplu, pentru o baza de documente video este practic imposibil ca utili-
zatorul sa poata vizualiza rapid cont inutul acesteia.
In acest caz, sistemul
poate furniza utilizatorului doar cateva imagini reprezentative sau un rezu-
mat de cateva secunde (exemplu un trailer) ce reda informat ia cheie din
secvent a.
Daca n urma cu cat iva ani de zile extragerea de atribute putea consi-
derata ca o etapa ce poate realizata o-line, timpul de prelucrare neind
critic, n prezent datorita dinamicii colect iilor multimedia (sa luam ca exem-
plu YouTube ce raporta n 2012 o rata de ncarcare de 72 de ore video pe
minut) aceasta trebuie realizata mult mai rapid decat o prelucrare n timp
real si trebuie sa poata scalabil a (sa poata aplicata unor colect ii de date
dinamice).
A CONT INUT 12
criminatorie a acestora. Un descriptor ecient este acela care maximizeaza
informat ia reprezentata si minimizeaza dimensionalitatea datelor. Mai multe
informat ii relative la tehnicile existente de adnotare a cont inutului sunt pre-
zentate n Sect iunea 3.
2.2 Formularea cautarii
Sistemul de cautare va permite utilizatorului sa localizeze informat iile dorite
pe baza formul arii unei cereri de cautare, denumita si query (concept si-
milar celui utilizat n contextul bazelor de date numit si interogare).
In mod
ideal, sistemul trebuie sa poata permite ca aceasta sa e formulata ntr-un
mod cat mai natural si cat mai apropiat de modul de percept ie uman, pentru
a putea la ndemana oricarui utilizator.
Precizia rezultatelor cautarii este n primul rand dependent a de modul
de formulare a cererii de cautare a datelor sau cu alte cuvinte a modului de
descriere a datelor care se doresc a gasite. Formularea adecvata a crite-
riilor de cautare nu este dependenta numai de sistemul de indexare aceasta
depinzand n mare parte si de utilizator.
A CONT INUT 13
practic legatura dintre modul de percept ie uman si reprezentarea informat iei
n sistemul respectiv.
In funct ie de natura datelor cautate, n literatura exista
o multitudine de abordari posibile:
folosirea vorbirii: n cazul cautarii textuale (informat ie sub forma
de text) se poate folosi direct comanda vocala. Utilizatorul vorbeste
practic ceea ce doreste sa caute, de exemplu: cauta prognoza meteo
pentru astazi sau cauta informat ii despre posibilitat i de cazare n
Paris. Comanda este transformata folosind algoritmi de recunoastere
automata a vorbirii n text care este comparat mai departe cu datele din
baza. Datorita limitarilor tehnologice a sistemelor de indexare multi-
media, o astfel de abordare foarte generala ramane viabila doar n cazul
cautarii de text, ca de exemplu pe Internet (vezi sistemul Siri de pe dis-
pozitivele iPhone
3
sau sistemul Google Voice Search de pe dispozitivele
cu sistem Android
4
);
folosirea de cuvinte cheie: reprezinta o varianta intermediara a ca-
zului anterior. Cererea de cautare este tot textuala dar este exprimata
ntr-un mod mai restrictiv pe baza unor cuvinte cheie. Pentru ca acest
mecanism sa funct ioneze, datele cautate trebuie sa aiba asociate descri-
eri textuale similare, descrieri ce sunt generate de regula de utilizatori
(de exemplu n momentul n care datele sunt ncarcate pe o platforma
media on-line) sau n mod automat (metodele de adnotare textuala
automata a cont inutului multimedia - tagging - sunt totusi nca des-
tul de imprecise);
folosirea unui concept: este de asemenea legata de specicarea unor
cuvinte cheie. Diferent a fat a de cazul anterior este data de faptul ca
un concept este o not iune destul de generala care face referire la o clasa
de date si nu neaparat la un obiect particular. De exemplu, se doreste
localizarea tuturor imaginilor ce cont in arbori, unde conceptul cautat
este arbore, sau a secvent elor n care apar case, conceptul cautat
ind acela de casa. Not iunea de cautare de concepte este asociata
n prezent datelor video si constituie un pas intermediar n atingerea
unui nivel de descriere textuala. La ora actuala sistemele de cautare
dupa cont inut video sunt limitate n a antrenate la a raspunde unui
numar destul de limitat de concepte (de ordinul miilor - vezi campania
TRECVID
5
);
3
http://www.apple.com/ios/siri
4
http://www.google.com/mobile/voice-search
5
http://trecvid.nist.gov
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP
A CONT INUT 14
folosirea unui exemplu: n acest caz, cererea este formulata folosind
un model al datelor. De exemplu, utilizatorul cauta toate imaginile
asemanatoare cu o anumita imagine de care dispune, imaginea ind
furnizata ca exemplu (vezi sistemul de cautare Google Image Search
6
).
Tot n aceasta categorie intra si cazul n care utilizatorul furnizeaza o
descriere schematica a datelor cautate. De exemplu acesta nu dispune
de o imagine de referint a dar poate reprezenta schematic cont inutul
dorit generand o schit a a imaginii (pozit ionarea anumitor categorii de
obiecte, prezent a anumitor culori si asa mai departe - vezi sistemul
QBIC al Hermitage Museum
7
);
folosirea gesturilor: un mod interesant de formulare a cererii de
cautare o reprezinta gesticularea obiectului care se doreste a cautat.
Acest mod de cautare are totusi un interes mai mult stiint ic deoarece
limitarile ziologice fac imposibil a reprezentarea oricarui obiect prin
intermediul gesturilor (vezi un exemplu n [Shirahama 11]);
fredonarea unui pasaj audio: n cazul cautarii nregistrarilor au-
dio, de regul a muzicale, o modalitate inedita de formulare a cererii de
cautare consta n fredonarea unui pasaj din melodia dorita (vezi de
exemplu sistemul Midomi
8
).
2.3 Cautarea datelor
Pentru a nt elese de sistem, cererile de cautare trebuiesc mai ntai conver-
tite n atribute de cont inut folosind acelasi mecanism ca si n cazul adnotarii
init iale a bazei de date.
In acest fel, cererea de cautare este reprezentata
practic n spat iul de caracteristici denit n etapa anterioara, prin interme-
diul unui descriptor. Mai departe, cautarea propriu-zisa se efectueaza prin
compararea valorilor acestui descriptor cu valorile descriptorilor datelor din
baz a.
Rezultatele cautarii vor acele date ale caror valori sunt cele mai apro-
piate din punct de vedere al unuia sau a mai multor criterii de similaritate,
de exemplu valorile minime ale unei marimi de distant a, folosirea unei baze
de reguli de decizie si asa mai departe (vezi Sect iunea 5).
De exemplu, n cazul sistemului din Figura 2.2, cererea de cautare poate
consta ntr-un exemplu de nregistrare audio. Utilizatorul doreste localizarea
6
http://images.google.com
7
http://www.hermitagemuseum.org/fcgi-bin/db2www/qbicSearch.mac/qbic?
selLang=English
8
http://www.midomi.com
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP
A CONT INUT 15
tuturor nregistrarilor audio similare cu aceasta. Exemplul este convertit de
sistem ntr-o serie de valori ale atributelor folosite la indexare, a
1
, a
2
, a
3
,
denind descriptorul de cautare: query={a
q1
, a
q2
, a
q3
}. Rezultatele cautarii
vor acele nregistari audio ce corespund punctelor cele mai apropiate de
punctul denit de descriptorul de cautare (vezi Figura 2.2). Datorita su-
biectivitat ii procesului de cautare, sistemul nu se limiteaza n a furniza un
singur rezultat, ci va returna o clasicare (ranking) a datelor n ordinea
descrescatoare a similaritat ii: pozit ia 1 - data cea mai similara, pozit ia 2 -
urm atoarea data cea mai similara, pozit ia 3, si asa mai departe.
A CONT INUT 16
gul a vizualizate n ordinea descrescatoare a relevant ei (similaritat ii) fat a de
cererea de cautare.
A CONT INUT 17
sa evalueze performant a sistemului, global, n orice situat ie. Acest lucru este
realizat de regul a testand raspunsul acestuia la cautarea ecarui document
din baza de date considerata. Practic, ecare document devine cerere de
cautare.
Evaluarea performant ei rezultatelor este mai departe realizata e subiec-
tiv, de exemplu pe baza opiniei utilizatorilor, e obiectiv folosind masuri nu-
merice de performant a (exemplu numarul mediu de rezultate corecte, numarul
mediu de rezultate eronate si asa mai departe). O trecere n revista a
abordarilor cel mai frecvent folosite n literatura de specialitate este pre-
zentata n Sect iunea 8.
CAPITOLUL 3
Descrierea cont inutului multimodal
Dup a cum am ment ionat n sect iunile anterioare, procesul de adnotare al
cont inutului datelor consta n crearea atributelor sau a descriptorilor de
cont inut ce constituie baza sistemului de indexare. Practic cautarea datelor
se realizeaza prin compararea valorilor acestor descriptori pentru cererea de
cautare (query) cu descriptorii informat iilor existente n baza de date.
In general descriptorii de cont inut obt inut i n urma adnotarii cont inutului
datelor multimedia pot clasicat i n funct ie de nivelul semantic al infor-
mat iilor furnizate n trei categorii:
Descriptori sintactici (low-level), constau de regulan adnotarea datelor
cu descrieri numerice. Acest mod de descriere corespunde n general prime-
lor sisteme de indexare (cu toate acestea multe dintre metode sunt folosite
si n sistemele existente - vezi sect iunile anterioare). Adnotarea sintactica
este denita generic ca ind adnotarea ce se refera la relat iile dintre unitat ile
de nivel scazut constituente ale datelor multimedia si modul de constituire a
structurii acestora. Aceasta se poate realiza pe baza atributelor numerice,
de nivel semantic redus, ca de exemplu parametri statistici calculat i la nivel
de pixel sau regiuni de pixeli, proprietat i geometrice ale obiectelor, structura
temporal a a unei secvent e sau vectori de miscare. De regul a, descriptorii
obt inut i n urma procesului de adnotare sunt valori numerice ce descriu atri-
bute de tipul celor enumerate mai sus dar si relat iile sintactice ce pot exista
ntre acestea. Extrasi la acest nivel de percept ie, descriptorii sintactici sunt
dicil accesibili utilizatorului de rand. De exemplu, cautarea unei imagini n
funct ie de procentul de aparit ie al unei culori sau a unei secvent e de ima-
gini care sa cont ina 30% miscare de translat ie si 20% miscare de rotat ie, nu
constituie o descriere prea relevanta pentru utilizator.
Descriptori simbolici (mid-level), acestia corespund unui nivel de descri-
ere intermediar, ce se gasestentre cele doua extreme: numeric si semantic, ca
de exemplu denumirea culorilor dintr-o imagine, detectarea unei scene de dia-
log sau a prezent ei umane n scena, identicarea unui anumit tip de cont inut.
De regul a descriptorii de nivel semantic intermediar sunt determinat i, indi-
rect, pe baza descrierilor sintactice.
Descriptori semantici (high-level), n contrast cu adnotarea sintactica,
adnotarea semantica a cont inutului presupune o descriere perceptuala ce
tinde sa atinga un nivel similar cu nivelul de percept ie uman. Informat iile
numerice obt inute n urma analizei sintactice pot convertite n concepte
semantice precum conceptele lingvistice folosind informat ii a priori despre
cont inutul datelor, si/sau trecand printr-o etapa intermediara de descriere
simbolica. Un sistem semantic este denit generic ca ind orice sistem ce
implica o colect ie de simboluri (vocabularul sistemului), reguli ce permit con-
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 38
stituirea de propozit ii, reguli de desemnare si reguli de validare.
In cazul siste-
melor de indexare, termenul de semantic si conserva acest sens. Acesta se
traduce prin codarea interpretarii datelor pentru a servi unei aplicat ii speci-
ce [Smeulders 00]. Astfel, descrierea semantica implica existent a unui set de
simboluri si reguli ce permit interpretarea lingvistica a anumitor evenimente
sau proprietat i ale datelor multimedia.
Acest mod de descriere presupune dezvoltarea de tehnici capabile sa fur-
nizeze o nt elegere completa a cont inutului necesitand de cele mai multe ori
o abordare multimodala (imagine-sunet-text). De exemplu, daca ne limitam
n a folosi doar informat ia furnizata de o imagine, sa luam cazul unei imagini
ce surprinde un jucator de fotbal, singurele caracteristici ce reies din analiza
imaginii sunt zionomia acestuia si prezent a sa n scena. Pe de alta parte,
dac a dispunem de secvent a ce l surprinde pe jucator, putem determina daca
acesta va marca golul, modul n care acesta joaca, contextul nregistrarii,
cum ar meciul despre care este vorba si asa mai departe, informat ii seman-
tice esent iale pentru nt elegerea cont inutului secvent ei.
In ciuda dicultat ii
sporite de generare automata, acest mod de reprezentare al datelor este unul
dintre cele mai eciente si constituie direct ia actuala de cercetare n domeniu.
Pentru a nt elege mai bine diferent a dintre cele trei categorii de adnotari
de cont inut, n Figura 3.9 am ilustrat un exemplu concret de adnotare sin-
tactica, simbolica si respectiv semantica n cazul unei secvent e de fotbal (din
motive de vizualizare, secvent a este reprezentata prin ilustrarea a catorva
imagini reprezentative).
schimbare de plan culori obiect de interes textur text traiectorie sunet
(a)
" , Ronaldo, num r , a " n meciul de al echipei ul fotbal Real Madrid 9 marcat (c)
(b) culoare predominant , , , num ul 9", etc. verde prezen persoan ovaiuni mulime r
Figura 3.9: Exemplu de descriere sintactica (a), simbolica (b) si semantica (c)
n cazul unei secvent e de imagini (axa orizontala reprezinta axa temporala).
Astfel, pornind de la informat ia video (imagine-sunet), adnotarea sintac-
tica va capabil a sa furnizeze doar informat ii relative la scena si la pro-
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 39
priet at ile acesteia, precum culoare, prezent a text, textura, traiectoria obiec-
telor n miscare, ritmul de desfasurare al act iunii sau detect ie zgomot audio
specic mult ime.
Folosind aceste informat ii se poate obt ine o descriere simbolica de nivel
semantic intermediar al cont inutului video precum detect ia culorii predomi-
nante ce corespunde gazonului, detect ia unei persoane n miscare, detect ia
ovat iunilor mult imii specice unui gol, detect ia tricoului cu numarul 9 si asa
mai departe. Aceste informat ii, nu sunt simple date numerice dar totusi nu
furnizeaza o ntelegere semantica a cont inutului secvent ei.
O adnotare semantica va da sens acestor informat ii ntr-un mod unitar,
de exemplu textura verde va indica ca este vorba despere un meci de fotbal,
culorile jucatorilor (obiecte n miscare) vor dezvalui echipele, recunoasterea
numerelor de pe tricou va identica jucatorii, segmentarea obiectului de in-
teres, urmarirea acestuia si prezent a zgomotului specic mult imii vor indica
marcarea golului. Astfel ca sistemul va nt elege sensul act iunii secvent ei si
anume ca este vorba despre un meci de fotbal al echipei Real Madrid n care
jucatorul cu numarul 9, Ronaldo, marcheaza.
CAPITOLUL 4
Fuziunea datelor
In cele mai multe dintre cazuri, pentru reprezentarea cont inutului multime-
dia este necesara combinarea mai multor tipuri de descriptori. De exemplu,
cont inutul unei secvent e de imagini poate reprezentat atat pe baza struc-
turii temporale, cat si folosind descriptori de miscare, descriptori audio si
asa mai departe. Strategiile de fuziune a datelor se bazeaza pe ipoteza con-
form careia o decizie obt inut a pe baza mai multor descriptori poate oferi
performant e superioare unei decizii bazate pe un singur tip de descriptor.
Astfel, se pune problema gasirii unei modalitat i de agregare (fuziune) a
acestor date, formand n general un nou descriptor ce sintetizeaza cat mai
bine puterea discriminatorie a descriptorilor individuali.
Cu alte cuvinte, ideal, noul descriptor trebuie sa pastreze acele proprietat i
distincte ale descriptorilor individuali (de exemplu informat ia audio descrie
proprietat i diferite fat a de informat ia structurala) si sa elimine informat iile
redundante (similare), exploatand cat mai bine complementaritatea acestora
n reprezentarea informat iei.
In general exista doua tipuri de abordari ale
problemei fuziunii datelor, tehnici de tip early fusion si respectiv late
fusion [Snoek 05].
4.1 Metode de tip early fusion
Tehnicile de tip early fusion realizeaza agregarea datelor timpuriu n
lant ul de prelucrare, nainte de a folosite la indexare sau n alte procese de
analiza. Fuziunea datelor are loc n spat iul de caracteristici (vezi Sect iunea
41
CAPITOLUL 4. FUZIUNEA DATELOR 42
2.1) si consta practic n concatenarea propriu-zisa a tuturor descriptorilor
f ar a a t ine cont de redundant a acestora.
De exemplu, daca obiectul multimedia X este descris de descriptorii de
cont inut desc
1
= {a
1
, a
2
, ..., a
n
}, desc
2
= {b
1
, b
2
, ..., b
m
} si respectiv desc
3
=
{c
1
, c
2
, ..., c
l
}, unde a, b si c reprezinta valorile atributelor acestora, des-
criptorul agregat este dat de concatenarea valorilor si anume desc
ef
=
{a
1
, ..., a
n
, b
1
, ..., b
m
, c
1
, ..., c
l
}. Acesta deneste astfel un nou spat iu de ca-
racteristici (n +m+l)-dimensional.
O problema care apare o reprezinta necesitatea normalizarii valorilor da-
telor ntr-un anumit interval comun. Descriptori diferit i tind s a aiba intervale
de variat ie diferite ale valorilor, de la normalizari diferite, de exemplu valori
ntre [0; 1] sau [a; b] (unde a si b sunt doua valori cunoscute) pana la intervale
de valori variabile si care depind de tipul datelor.
Dintre tehnicile de normalizare cel mai frecvent folosite putem enumera
normalizarea min-max:
a
i
=
a
i
min{a
i
}
max{a
i
} min{a
i
}
(4.1)
unde a
i
sunt atributele descriptorului, i = 1, ..., n cu n numarul de valori ale
acestuia, min{a
i
} si max{a
i
} reprezinta operatorii ce returneaza valoarea
minima si respectiv maxima a tuturor valorilor descriptorilor (pentru toate
obiectele multimedia considerate) pentru atributul a
i
. Calculata n acest fel,
normalizarea min-max asigur a o normalizare a valorilor n intervalul [0; 1].
Normalizarea z-score se foloseste de calculul abaterii patratice medii:
a
i
=
a
i
medie{a
i
}
{a
i
}
(4.2)
unde ca si n cazul anterior, operatorii medie{a
i
} si {a
i
} returneaza valoarea
medie si respectiv abaterea p atratica medie a tuturor valorilor descriptorilor
pentru atributul a
i
.
In acest caz normalizarea se realizeaza pe o distribut ie
de medie zero si dispersie unu.
O alta abordare consta n calculul statisticii mediane:
a
i
=
a
i
median{a
i
}
median{|a
i
median{a
i
}|}
(4.3)
unde operatorul median{a
i
} returneaza statistica mediana
1
a mult imii tu-
turor valorilor descriptorilor pentru atributul a
i
iar opertorul |.| returneaza
valoarea absoluta.
1
valoarea mediana a unei mult imi se obt ine prin ordonarea valorilor acesteia n ordine
crescatoare si alegerea valorii de mijloc.
CAPITOLUL 4. FUZIUNEA DATELOR 43
Daca ordinul intervalului de variat ie al valorilor descriptorului difera foarte
mult, ca de exemplu printr-un ordin de marime logaritmic, [0; 1] comparativ
cu [0; 1000], normalizarea se poate realiza folosind scalarea zecimala:
a
i
=
a
i
10
n
, n = log
10
(max{a
i
}) (4.4)
i=1
i
p
i,c
j
(4.6)
unde d reprezinta documentul curent, p
i,c
j
reprezinta probabilitatea de apar-
tenent a la clasa c
j
, j = 1, ..., M cu M numarul de clase considerate, atribuita
de clasicatorul i iar
i
reprezinta un set de ponderi. Un caz particular
l reprezinta considerarea de ponderi egale ceea ce conduce la nsumarea
gradelor de relevant a pentru ecare clasa.
CAPITOLUL 4. FUZIUNEA DATELOR 48
Un alt exemplu este atribuirea unei ponderi superioare acelor date care
sunt mai probabile sa e relevante pentru o clasa, astfel:
f
CombMNZ
(d, c
j
) = F(d)
i=1
i
p
i,c
j
(4.7)
unde F(d) reprezinta numarul de clasicatori pentru care documentul d apare
n primele k documente din punct de vedere al valorii de relevant a (k este o
constanta stabilita a priori) iar [0, 1] este un parametru de control.
Noile valori de relevant a obt inute n urma agregari sunt folosite mai de-
parte pentru indexarea datelor n mod similar n care acestea erau folosite n
cazul considerarii unui singur clasicator.
Comparate cu abordarile de tip early fusion, tehnicile de tip late
fusion sunt mai avantajoase din punct de vedere computat ional deoarece
agregarea se face folosind dimensiunea init iala a descriptorilor. Este mai e-
cienta clasicarea unor descriptori de dimensiuni reduse si agregarea rezul-
tatelor decat clasicarea unui descriptor agregat de dimensiuni semnicativ
mai mari. Principalul dezavantaj al acestor metode este totusi dat de pier-
derea eventualei corelat ii dintre descriptori ce se obt ine n cazul concatenarii
acestora si care poate furniza un nivel de discriminare superior folosirii indi-
viduale a acestora.
In ciuda diferent elor dintre cele doua abordari, early fusion si respectiv
late fusion, nu exista o metoda preferent ialan defavoarea celeilalte, ambele
abordari dovedindu-se eciente n contexte diferite. Astfel ca tehnica de
fuziune a datelor ramane dependenta de aplicat ie [Lan 12].
CAPITOLUL 5
Conceptul de similaritate a datelor
Asa cum am prezentat n Sect iunea 2.3, n procesul de cautare dupa cont inut
a datelor, descrierea ecienta a cont inutului nu este sucient a pentru a asi-
gura indexarea acestora n baza de date. La fel de importanta este denirea
conceptului de similaritate (sau opus, disimilaritate) dintre date sau dintre
descriptorii acestora.
Practic identicarea rezultatelor cautarii se realizeaza prin localizarea da-
telor ce sunt similare pana la un anumit nivel cu cererea de cautare (qu-
ery). Cu alte cuvinte este necesara denirea unei funct ii, S(O
1
, O
2
), capabila
sa evalueze n ce masura doua obiecte multimedia, O
1
si O
2
, arata sau suna
n mod similar, n ce masura au o structura similara saun ce masura conduc
la aceeasi percept ie sau interpretare a cont inutului [Worring 03].
_
n
i=1
[A
O
1
(i) A
O
2
(i)]
r
(5.1)
unde A
O
(i) reprezinta valoarea de indice i a descriptorului aferent obiectului
multimedia O, cu i = 1, ..., n elemente (de regula descriptorii de cont inut
sunt vectori n-dimensionali de valori, vezi si Sect iunea 2.1).
i=1
|A
O
1
(i) A
O
2
(i)| (5.2)
unde operatorul |.| reprezinta valoarea absoluta.
Pentru r = 2 obt inem mai departe norma L2 cunoscuta sub numele de
distant a Euclidiana:
S
Euclid
(A
O
1
, A
O
2
) =
_
n
i=1
[A
O
1
(i) A
O
2
(i)]
2
(5.3)
_
n
i=1
w
i
[A
O
1
(i) A
O
2
(i)]
2
(5.4)
unde w
i
, cu i = 1, ..., n reprezinta ponderile ecarei valori.
O alta masura de distant a ce este folosita de regula cand descriptorii de
cont inut sunt reprezentat i sub forma de histograme (de exemplu histograma
color a unei imagini) o constituie intersect ia histogramei. Aceasta este de
fapt o masura a disimilaritat ii si este denita ca suma minimelor valorilor
histogramelor:
S
inter
(h
O
1
, h
O
2
) =
n
i=1
min{h
O
1
(i), h
O
2
(i)} (5.5)
unde h
O
(i) cu i = 1, ..., n reprezinta histograma color a obiectului multimedia
O iar operatorul min{.} returneaza valoarea minima a unui set de elemente.
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 51
Tot n cazul evaluari diferent elor dintre histograme si n special dintre
histogramele color ale imaginilor, n cazul folosirii distant elor clasice, este
foarte probabil ca pentru distribut ii ale unei aceleiasi nuant e (de exemplu
rosu deschis si rosu) sa obt inem valori semnicative ale distant ei, de ordin de
masura similar ca pentru distant a fat a de o distribut ie a unei nuant e complet
diferite (de exemplu albastru), n ciuda faptului ca diferent ele n primul caz
ar trebui sa e reduse, culorile ind asemanatoare. O distant a care tinde sa
contracareze acest efect este distant a patratica dintre histograme:
S
hist2
(h
O
1
, h
O
2
) =
_
(h
O
1
h
O
2
)
T
A (h
O
1
h
O
2
) (5.6)
unde h
O
reprezinta vectorul histograma cu n elemente, T reprezinta transpusa
unei matrice iar A = [a
i,j
], i, j = 1, ..., n, reprezinta o matrice patratica de
valori ce indica corelat ia dintre elementele histogramelor de indici i cu cele
de indice j (de regula A este simetrica si are elementele de pe diagonala
principal a egale cu 1).
Alte masuri de distant a frecvent folosite sunt distant a Canberra:
S
Canb
(A
O
1
, A
O
2
) =
n
i=1
|A
O
1
(i) A
O
2
(i)|
|A
O
1
(i)| +|A
O
2
(i)|
(5.7)
distant a Bray-Curtis:
S
BC
(A
O
1
, A
O
2
) =
n
i=1
|A
O
1
(i) A
O
2
(i)|
n
i=1
[A
O
1
(i) +A
O
2
(i)]
(5.8)
distant a SquaredChord:
S
SChord
(A
O
1
, A
O
2
) =
n
i=1
_
_
A
O
1
(i)
_
A
O
2
(i)
_
2
(5.9)
distant a Lorentzian, Soergel, Czekanowski, Motyka, Ruzicka, Tanimoto, Wave-
Hadges, Clark, Person si asa mai departe. Pentru mai multe detalii cititorul
se poate raporta la [Deza 06].
O abordare diferita este distant a Bhattacharyya ce masoar a similarita-
tea a doua distribut ii de probabilitate.
In cazul n care descriptorii sunt
considerat i a avea o distibut ie normala Gaussiana, distant a poate scrisa ca
ind:
S
Bhatta
(A
O
1
, A
O
2
) =
1
8
_
A
O
1
A
O
2
_
T
(
O
1
,O
2
)
1
A
O
1
A
O
2
_
+
1
2
ln
_
det(
O
1
,O
2
)
_
det(
O
1
) det(
O
2
)
_
(5.10)
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 52
unde
A
O
reprezinta vectorul medie al distribut iei de probabilitate a descrip-
torului A
O
,
O
reprezinta matricea de covariant a a distribut iei lui A
O
,
O
1
,O
2
reprezinta media aritmetica a matricelor de covariant a pentru distribut iile lui
A
O
1
si A
O
2
(vezi si [Ciuc 05]), T reprezinta transpusa unei matrice iar ope-
ratorul det(.) returneaza determinantul unei matrice.
O alta perspectiva o constituie reprezentarea datelor sub forma de mult imi.
Distant a Hausdor evalueaza gradul de apropiere a doua submult imi ntr-un
anumit spat iu si folosind o anumita metrica, astfel:
S
Haus
(A
O
1
, A
O
2
) = max{sup
i
inf
j
d(A
O
1
(i), A
O
2
(j)),
sup
j
inf
i
d(A
O
1
(i), A
O
2
(j))} (5.11)
unde i, j = 1, ..., n, inf si sup reprezinta inmum si respectiv supremum al
unei mult imi (de regula valoarea minima si respectiv maxima), d(.) reprezinta
o anumita metrica (de exemplu norma L1) iar max{.} returneaza valoarea
maxima a unei mult imi.
In acest caz, valorile descriptorilor pot vazute din
perspectiva elementelor unei mult imi.
Un alt caz interesant este distant a cosinus. Sa presupunem ca descrip-
torii de cont inut sunt vectori de caractere iar datele ce trebuiesc comparate
sunt documente textuale, atunci similaritatea dintre acestea poate evaluata
folosind produsul scalar:
S(A
O
1
, A
O
2
) =
n
i=1
A
O
1
(i) A
O
2
(i) (5.12)
Acum daca descriptorii textuali sunt reprezentat i sub form a de histograme
ale caror valori indica numarul de aparit ii al unui anumit cuvant n document
(eventual ponderat de un factor de important a - cuvintele sunt alese pentru
un dict ionar predenit; vezi TF-IDF n Sect iunea 3.3) atunci similaritatea
se reduce la o nmult ire a valorilor histogramelor pentru cele doua docu-
mente. Astfel, atunci cand un cuvant apare frecvent n cele doua documente,
contribut ia acestuia la produs va semnicativa.
Problema care apare este faptul ca documentele mari vor cont ine mai
multe cuvinte si vor tinde sa devina mai similare decat documentele ce cont in
mai put in text. Astfel ca n practica descriptorii sunt normalizat i la dimen-
siunea acestora ||A
O
||
2
=
n
i=1
A
2
O
(i) ceea ce conduce la formularea distant ei
cosinus astfel:
S
cos
(A
O
1
, A
O
2
) =
A
O
1
A
O
2
||A
O
1
|| ||A
O
2
||
(5.13)
unde reprezinta produsul scalar (denumirea de cosinus vine de la faptul ca
distant a este practic cosinusul unghiului celor doi vectori normalizat i).
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 53
pS
|d
I
O
1
(p) d
I
O
2
(p)|
q
_
1/q
(5.14)
unde I
O
reprezinta o imagine binara, M N reprezinta numarul total de
pixeli din setul S, d
I
O
(p) reprezinta o anumita metrica de distant a de la
punctul p la cel mai apropiat punct al obiectului cont inut n imaginea I
O
iar q este exponentul (de regula se considera q = 2). Denita n acest fel,
distant a Baddeley ofera un anumit grad de invariant a la translat ia obiectelor
si modicarea factorului de scala.
O problema aparte o ridica compararea descriptorilor de dimensiuni di-
ferite, ca de exemplu histogramele color a doua imagini cu palete de culoare
diferite (binii histogramei si numarul acestora sunt diferite). O solut ie n
acest sens este propusa de distant a Earth Movers Distance (EMD). Aceasta
se bazeaza pe evaluarea costului minim aferent transformarii unuia dintre
descriptori n cel alalt si este formulata ca o problema de optimizare. EMD
este denita n felul urmator:
S
EMD
(A
O
1
, A
O
2
) =
m
i=1
n
j=1
d
i,j
f
i,j
m
i=1
n
j=1
f
i,j
(5.15)
unde cei doi descriptori A
O
1
si respectiv A
O
2
au dimensiuni diferite, m si
respectiv n, d
i,j
reprezinta distant a dintre valorile A
O
1
(i) si respectiv A
O
2
(j)
iar f
i,j
este o funct ie de cost ce reprezinta deplasarea ntre A
O
1
(i) si A
O
2
(j)
determinata ca minimizand valoarea costului total
m
i=1
n
j=1
d
i,j
f
i,j
cu o
serie de constrangeri [Rubner 00].
O alta categorie de distant e sunt cele inspirate din teoria informat iei a
lui Shannon, precum divergent ele KullbackLeibler:
S
KL
(A
O
1
, A
O
2
) =
n
i=1
A
O
1
(i) ln
A
O
1
(i)
A
O
2
(i)
(5.16)
sau divergent a Jerey:
S
Jeff
(A
O
1
, A
O
2
) =
n
i=1
[A
O
1
(i) A
O
2
(i)] [ln(A
O
1
(i)) ln(A
O
2
(i))] (5.17)
Acestea sunt aplicate cu prec adere la compararea descriptorilor specici da-
telor audio, unde este relevanta distribut ia statistica a valorilor acestora.
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 54
Pentru a ilustra important a alegerii adecvate a masurii de distant a, n
Figura 5.1 am prezentat rezultatele obt inute pentru o cautare de imagini cu
relevance feedback (vezi Sect iunea 2.4) si folosind metrici si descriptori de
cont inut diferit i [Mironica 12b]. Gracele ilustreaza performant a cautarii pe
baza valorii MAP (Mean Average Precision, vezi Sect iune 8; reprezentata pe
axa oY - valoarea maxima este 1 ce indica o performant a de 100%) raportata
la metrica folosita (axa oX). Pentru descrierea cont inutului imaginilor au
fost folosit i descriptori de trasaturi de tip SIFT si SURF (vezi Sect iune 3.1).
Testele au fost efectuate pe doua baze de imagini, baza Microsoft Object
Class Recognition
1
(puncte rosii) si respectiv Caltech-101
2
(puncte albastre).
0
0.2
0.4
M
A
P
descriptori SURF
0.6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Microsoft
Caltech-101
1 - Euclidian
2 - Pearson
3 - Manhatan
4 - Squared Chord
5 - Canberra
6 - Jefrey
7 - Soergel
8 - Bhattacharyya
9 - Chi-Square
10 - Bray-Curtis
11 - Matusita
12 - Czekanowski
13 - Cosine
14 - Lorentzian
15 - Ruzicka
16 - Dice
17 - Motika
18 - Tanimoto
19 - Clark
Baz de imagini
Metric
0
0.2
0.4
0.6
M
A
P
descriptori SIFT
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Figura 5.1: Exemplu de inuent a a metricii asupra performant elor cautarii de
imagini [Mironica 12b] (MAP reprezinta Mean Average Precision - valoarea
maxima 1 corespunde unei performant e de 100%).
Se poate observa faptul ca n funct ie de metrica, performant ele sistemului
variaza semnicativ, de exemplu pentru baza Microsoft valorile MAP variaza
de la 10% la 50% pentru descriptorii SURF si de la 10% la 38% pentru SIFT.
Pe l anga alegerea adecvata a descriptorilor (se observa si n gura faptul ca
1
Microsoft Object Class Recognition http://research.microsoft.com/en-us/
projects/objectclassrecognition.
2
Caltech-101 http://www.vision.caltech.edu/Image_Datasets/Caltech101.
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 55
descriptorul SURF este mai performant n contextul sistemului prezentat),
alegerea adecvata a metricii joaca un rol cel put in la fel de important.
5.2 Similaritatea la nivel de structura
Aceasta presupune evaluarea gradului de similaritate a doua obiecte multi-
media, O
1
si O
2
, din punct de vedere al structurii acestora, ca de exemplu
modul de aranjare spat iala a obiectelor n imagini, modul de structurare al
unei paginii de text, structura temporala a unui document video. O moda-
litate ecienta de caracterizare a structurii este prin intermediul descrierii
acesteia cu siruri de caractere [Worring 03].
S a consideram n continuare exemplul datelor video. Un document vi-
deo, din punct de vedere structural, este constituit ca o nsiruire de plane
video separate de tranzit ii (vezi Sect iunea 3.1). Informat ia structurala poate
consta n descrierea acestei structuri. Documentul video poate reprezentat
ca un sir de caractere de genul scswsdcs, unde s reprezinta un plan video
(shot), c reprezinta o tranzit ie de tip cut, w reprezinta o tranzit ie gra-
dual a de tip wipe iar d reprezinta un dissolves. Informat ia temporala
este data de ordinea simbolurilor n sir, astfel acest document video ncepe
cu un plan urmat de un cut, un plan video, o tranzit ie dissolves si asa
mai departe.
Pentru a compara similaritatea descriptorilor astfel obt inut i o varianta e-
cient a o reprezinta folosirea distant ei de editare (edit distance), ce foloseste
un concept similar distant ei Earth Movers Distance (EMD) descrisa anterior.
Avand la dispozit ie descriptorii structurali de cont inut ai celor doua obiecte
multimedia, A
O
1
= {a
1,1
, a
1,2
, ..., a
1,n
} si respectiv A
O
2
= {a
2,1
, a
2,2
, ..., a
2,m
},
unde n si m reprezinta numarul de caractere, un alfabet ce descrie sim-
bolurile posibile (valorile lui a), un set E de operat ii de editare si costurile
aferente acestora, distant a de editare dintre A
O
1
si A
O
2
reprezinta costul
minim de transformare a sirului A
O
1
n sirul A
O
2
pe baza operat iilor din E.
In exemplul din Figura 5.2.(a), obiectul Ford Explorer poate cont ine
atribute de tipul:
<se numeste> Ford Explorer,
<are drept componenta> usa (numar minim si maxim 4),
<are drept componenta unul dintre> {motor 4.0 litrii, motor 4.6 litrii},
<are drept componenta> transmisie cu 6-viteze,
Mai multe informat ii relative la ontologii pot gasite n [Gomez-Perez 04].
Invat area de lunga durata se foloseste nu numai de informat iile obt inute
de la utilizator n sesiunea curenta, ci de toate informat iile furnizate de-a
lungul timpului de utilizatori diferit i si n sesiuni diferite. Acestea sunt de
regul a stocate de cele mai multe ori sub forma unei reprezentari matriceale
a relat iilor descoperite ca existand ntre informat iile din baza de date, relat ii
ce sunt actualizate pe masura ce se obt in noi informat ii de la utilizatori.
Ca si n cazul anterior, exista o serie de limitari ale acestui mod de abor-
dare, cele mai semnicative ind:
acesti algoritmi sunt mai dicil de implementat n cazul bazelor de date
ce presupun frecvent eliminarea si adaugarea de date noi;
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 63
gradul de succes depinde foarte mult de cantitatea de informat ii de fee-
dback stocate anterior, de cele mai multe ori n realitate preferandu-se
utilizarea unei combinat ii ntre strategii de nvat are de scurta si lunga
durata;
datorita utilizarii mai multor surse de feedback informat ia stocata
tinde sa e neomogena si foarte probabil sa nu acopere toate datele;
ca si n cazul anterior, procesul de ranare trebuie sa poat a imple-
mentat n timp real. Suplimentar complexitat ii datelor de prelucrat,
sistemul trebuie sa e capabil sa analizeze si un volum semnicativ
de date de feedback de la utilizatori. De regula pentru a solut iona
aceasta problema, se preferampart irea bazei de date pe diverse niveluri
de relevant a folosind ierarhii arborescente de cont inut.
6.1 Algoritmul Rocchio
Algoritmii de schimbare a punctului de interogare constituie una dintre pri-
mele abordari de tip relevance feedback ale problemei ranarii rezultatelor
cautarii, dezvoltate init ial n contextul cautarii de documente textuale, exem-
plu ind algoritmul propus de Rocchio [Rocchio 71]. Pornind de la modul
de reprezentare al datelor ntr-un sistem clasic de indexare dup a cont inut n
care ecare document este reprezentat ca un punct n spat iul de caracteristici
denit de descriptorii de cont inut asociat i (vezi si Figura 2.2), o anumita ce-
rere de cautare a utilizatorului (query) este descrisa la randul ei n acelasi
spat iu sub forma unui punct numit si punct de interogare.
Acest lucru este ilustrat schematic n Figura 6.2. Axele a
1
, a
2
, ..., a
n
reprezinta valorile atributelor de cont inut ce denesc spat iul de caracteristici
n-dimensional. Fiecare punct reprezinta valorile descriptorilor unui docu-
ment din baza de date. Cererea de cautare este reprezentata n acest caz de
dreptunghiul verde (punctul de interogare).
In urma procesului de cautare,
sistemul returneaza ca rezultat datele cele mai apropiate punctului de in-
terogare marcate n Figura 6.2 de cercul punctat (punctele care se aa la
o anumita distant a de query, de regula n interiorul unei sfere). Aceste
rezultate sunt prezentate utilizatorului de regula n ordinea descrescatoare a
distant ei fat a de punctul de interogare.
Conform algoritmului de relevance feedback, utilizatorul marcheaza
mai departe rezultatele ca ind, e relevante, e nerelevante pentru datele
cautate; de exemplu punctele marcate n gura cu cercuri verzi si respectiv
punctele marcate cu + de culoare rosie.
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 64
+ +
+
+
a
1
a
2
a
3
a
n
+
+
+
+
- punct de interogare
- document din baz
- rezultat relevant
+
- rezultat nerelevant
q
desc
q
desc
+
+
+
Figura 6.2: Modul de schimbare a punctului de interogare n cazul metodei
propuse de Rocchio [Rocchio 71] (reprezentarea obiectelor din baza n spat iul
de caracteristici; desc
q
reprezinta punctul de interograre init ial iar desc
q
noul
punct de interogare calculat - notat iile sunt explicate n text).
Algoritmul lui Rocchio utilizeaza mult imea de documente relevante, R,
si respectiv de documente nerelevante, N, pentru a redeni un nou punct de
interogare folosind urmatoarea relat ie:
desc
q
= desc
q
+
1
||R||
desc
i
R
desc
i
1
||N||
desc
j
N
desc
j
(6.1)
unde desc
q
reprezinta noul punct de interogare, desc
q
reprezinta punctul de
interogare init ial, (ponderea punctului init ial de interogare), (factorul de
important a al rezultatelor relevante) si (factorul de important a al rezul-
tatelor nerelevante) sunt o serie de ponderi alese empiric (valorile acestora
sunt cuprinse n intervalul [0; 1]), ||.|| este operatorul ce returneaza numarul
de elemente ale unei mult imi iar desc = {a
1
, ..., a
n
} reprezinta descriptorii de
cont inut ai rezultatelor cautarii.
Denit n acest fel, noul punct de interogare tinde sa se deplaseze spre
centroidul mult imii R a rezultatelor marcate ca ind relevante, ceea ce n
urma reluarii mecanismului de cautare va conduce la rezultate mai relevante.
6.2 Estimarea important ei atributelor
Algoritmii de estimare a important ei atributelor (Feature Relevance Estima-
tion) [Rui 99] pleaca de la ipoteza conform careia pentru o anumita cautare
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 65
ponderea atributelor descriptorilor de cont inut poate inuent a relevant a re-
zultatelor.
In mod implicit, atributele descriptorilor sunt considerate a avea o
contribut ie identica la localizarea datelor celor mai similare, acest lucru ind
realizat pe baza calculului unei masuri de distant a (de exemplu distant a
Euclidiana, vezi si Sect iunea 5). Pe baza interact iei cu utilizatorul, ponde-
rile atributelor pot modicate astfel ncat sa se mbunatat easca rezultatele
cautarii.
Folosind notat iile anterioare, daca desc = {a
1
, ..., a
n
} reprezinta des-
criptorul de cont inut al datelor, unde a
i
cu i = 1, ..., n reprezinta valorile
atributelor acestuia, atunci se va considera un anumit vector de ponderi,
W = {w
1
, ..., w
n
}, unde w
i
reprezinta ponderea atributului a
i
. Aceste valori
sunt init ial considerate egale cu 1 (cu alte cuvinte nu exista ponderare).
Sistemul de indexare realizeaza cautarea datelor pe baza compararii des-
criptorilor si returneaza rezultatele n ordinea descrescatoare a similaritat ii.
Ca si n cazul anterior, utilizatorul marcheaza rezultatele relevante si respec-
tiv nerelevante. Pe baza acestor informat ii se va modica ponderea indivi-
dual a a ecarui atribut.
O varianta o reprezinta calculul lui w
i
n funct ie de abaterea patratica
medie a valorilor atributelor
i
, si anume:
w
i
=
1
i
(6.2)
unde
i
reprezinta abaterea patratica medie a valorilor atributului a
i
pen-
tru documentele marcate drept relevante de utilizator. Denit n acest fel,
un atribut cu grad de important a ridicat va tinde sa aiba o valoare relativ
constanta pentru ecare document n timp ce un atribut mai put in discrimi-
nant pentru datele cautate va tinde sa aiba o gama mult mai mare de valori,
ponderea acestuia ind redusa proport ional.
O alta abordare consta n folosirea de ponderi ce depind de rezultatele
cautarii individuale dupa ecare atribut n parte:
w
i
=
2 ||R
i
||
T
(6.3)
unde R
i
reprezinta mult imea documentelor relevante n cazul unei cautari
folosind drept descriptor doar atributul a
i
, ||.|| este operatorul ce returneaza
numarul de elemente ale unei mult imi iar T reprezinta numarul total de
documente relevante din baza.
Odata determinate ponderile atributelor, acestea sunt folosite la ranarea
rezultatelor cautarii prin calcularea similaritat ii documentelor pe baza unei
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 66
+
+
+
+
a
1
a
2
+
+
+
+
+
+
+
+
+
+
+
+
+
a
1
a
2
+
+
+
+
+
+
+
+
+
( ) a (b)
- punct de interogare
- document relevant
+
- document nerelevant
w =w
1 2
w >w
1 2
Figura 6.3: Estimarea important ei atributelor cu metoda [Rui 99] (reprezen-
tarea obiectelor din baza n spat iul de caracteristici - pentru exemplicare
s-au ales doar doua atribute): (a) reprezentarea rezultatelor cautarii (deli-
mitate de cercul punctat), (b) modicarea rezultatelor n funct ie de noua
pondere a atributelor (delimitate de elipsa punctata).
masuri de distant e ponderate:
d
FRE
(desc
x
, desc
y
, W) =
n
i=1
w
i
(a
xi
a
yi
)
2
n
i=1
w
i
(6.4)
unde desc
x
si desc
y
reprezinta descriptorii de cont inut a doua documente iar
a
xi
si a
yi
cu i = 1, ..., n atributele acestora.
Modicarea ponderilor asociate ecarui atribut individual al descriptoru-
lui n funct ie de rezultatele relevante se traduce n spat iul de caracteristici
prin modicarea regiunii de select ie a rezultatelor de la o sfera la un elipsoid,
adaptandu-se mult imii de documente relevante. Acest lucru este ilustrat
schematic n Figura 6.3.
6.3 Support Vector Machines
Motivat i de succesul implementarii tehnicilor de nvat are asistata de calcula-
tor (machine learning) n contextul sistemelor de indexare dup a cont inut,
algoritmii de clasicare si-au gasit aplicabilitate si n cazul tehnicilor de re-
levance feedback. Astfel, problema mbunatat irii performant elor sistemului
de cautare pe baza utilizarii informat iei furnizate de utilizator este transfor-
mat a ntr-o problema clasica de clasicare.
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 67
Documentele marcate ca ind relevante si respectiv nerelevante sunt fo-
losite pentru antrenarea unui anumit clasicator care sa permit a catalogarea
datelor n una dintre cele doua clase: documente relevante si respectiv do-
cumente nerelevante. Mai departe, documentele din baza sunt trecute prin
clasicator si vor astfel re-alocate uneia dintre cele doua clase. Practic,
informat ia de la utilizator este folosita pe post de ground truth
2
pentru
determinarea unui set de reguli care sa permita partit ionarea datelor n cele
doua clase de relevant a.
In urma clasicarii, datele vor primi un nou rang
calculat n funct ie de un grad de relevant a atribuit de clasicator, ceea ce
conduce global la ranarea rezultatelor init iale.
Dintre tehnicile de clasicare a datelor cel mai frecvent ntalnite n con-
textul de relevance feedback putem ment iona: Support Vector Machines
(SVM), k-Nearest Neighbors (kNN) sau arborii de decizie (ca de exemplu
Random Forests). Pentru mai multe detalii relativ la tehnicile de clasi-
care a datelor cititorul se poate raporta la [Ionescu 09] [Witten 05] (vezi si
explicat ia din Sect iunea 4.2).
) unde X si X
) = (X X
)
d
(6.12)
unde d este un numar ntreg;
nucleu polinomial neomogen:
k(X, X
) = (X X
+ 1)
d
(6.13)
funct ie radiala:
k(X, X
) = exp(||X X
||
2
) (6.14)
unde > 0;
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 70
funct ie radiala Gaussiana:
k(X, X
) = exp
_
||X X
||
2
2
2
_
(6.15)
unde
2
reprezinta variant a statistica;
funct ie sigmoida:
k(X, X
) = tanh( X X
+ c) (6.16)
unde tanh(.) reprezinta tangenta hiperbolica, > 0 iar c < 0.
Cu toate ca SVM este un clasicator binar, acesta poate folosit cu
succes pentru a rezolva probleme de clasicare multi-clasa specice indexarii
dup a cont inut. Una dintre metodele cele mai uzuale consta n transformarea
clasicarii multi-clasa ntr-o succesiune de clasicari binare [Kotsiantis 07]
(de exemplu folosind clasicatori binari ce clasica o clasa fat a de toate
celelalte - one-versus-all, sau care clasica ecare pereche de clase - one-
versus-one).
ARII 80
acestora relativ la datele cautate. Procesul se repeta n general pentru un
numar cat mai semnicativ de rezultate precum si pentru cat mai mult i
utilizatori. De regula, experimentele respecta un protocol bine denit si
sunt realizate n aceleasi condit ii pentru tot i utilizatorii pentru a nu exista
factori externi diferit i care sa inuent eze raspunsurile la ntrebari.
In nal,
raspunsurile obt inute relativ la performant a sistemului sunt analizate din
punct de vedere statistic si se concluzioneaza asupra performant elor medii
globale ale sistemului.
Prezentam pentru exemplicare o astfel de campanie de evaluare realizata
n cazul tehnicilor de rezumare automata de cont inut. Sistemul evaluat este
un sistem de generare automata a unui rezumat n imagini a unui document
video [Ionescu 10] (o colect ie de imagini considerate ca ind reprezentative
pentru cont inutul secvent ei respective). Avandn vedere subiectivitatea unui
astfel de proces, se doreste validarea acestuia de catre utilizatori. Primul
pas al campaniei consta n denirea protocolului de evaluare, si anume acel
algoritm pe care il vor urma utilizatorii. Denirea precisa a unui protocol
asigura n primul rand standardizarea testului prin realizarea acestuia n
acelasi mod de catre tot i participant ii la evaluare.
In Figura 8.1 sunt prezentate rezultatele obt inute n urma test arii rezu-
matelor pentru 10 secvent e de animat ie (sursa [CITIA 13]) de c atre un numar
de 27 de utilizatori. Gracele ilustreaza scorul mediu obt inut pentru ecare
secvent a si ntrebare n parte cat si abaterea standard a acestor rezultate (un
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX
ARII 81
ARII 82
abaterea standard este de 2.3.
Totusi, pe baza acestor date se poate concluziona la nivel global relativ la
calitatea rezultatelor sistemului, n acest exemplu tehnica de rezumare pro-
pusa obt inand lantrebarea 1 un scor mediu global de 6.9, ceea ce corespunde
faptului ca este capabil a sa reprezinte n mare parte cont inutul original;
cat si un scor mediu global de 6.1 la ntrebarea 2 ceea ce corespunde faptului
ca durata rezumatului propus tinde sa e adecvata.
Crowd-sourcing. O alternativa actuala la realizarea zica de campanii
de evaluare o constituie folosirea mediului on-line si anume a Internetului.
Una dintre dicultat ile principale ale unei campanii de evaluare o constituie
dicultatea de a dispune de un numar semnicativ de utilizatori la un anumit
moment de timp ntr-o anumita locat ie. Astfel ca o solut ie mai ecienta o
constituie organizarea campaniei on-line, utilizatorii neind restrict ionat i a
prezent i zic si putand realiza evaluarea la momentul dorit n funct ie de
disponibilitatea lor de timp. Mai mult, participarea on-line permite accesarea
unui numar semnicativ de utilizatori din toata lumea.
Un domeniu aparte si gaseste n prezent aplicat ie n contextul sisteme-
lor de evaluare a performant elor algoritmilor multimedia si anume acela de
crowd-sourcing. Cu toate ca dezvoltarea crowd-sourcing nu este legata
de acest context, ind dezvoltata n principal pentru realizarea unei struc-
turi de prestare de servicii la distant a - conceptul de crowd-sourcing ind
denit ca procesul de formulare a unei anumite sarcini de lucru, divizarea
acesteia n micro-sarcini ce pot realizate foarte usor si rapid de personal
necalicat si distribuirea acestora spre rezolvare catre un grup necunoscut
de utilizatori de pe Internet - posibilitatea de a accesa un numar practic
nelimitat de utilizatori face din aceasta un candidat ideal pentru evaluarea
subiectiva.
ARII 83
rezolvat care este extrem de redus (exemplu 4$ pe ora). Din perspectiva or-
ganizarii evaluarii, singurul mecanism de crestere a calitat ii evaluari este dat
de modul de concepere al evaluarii care trebuie sa e unul intuitiv, simplu,
rapid si atractiv pentru utilizator.
Dintre platformele de crowd-sourcing existente una dintre cele mai po-
pulare este Amazon Mechanical Turk
1
. Aceasta este totusi limitata n a
accesibil a doar pentru persoane (requesters - persoanele care formuleaza
sarcinile ce trebuiesc rezolvate de utilizatori) care au coordonate bancare n
Statele Unite. O alternativa la aceasta este platforma este Crowdower
2
.
Cererile de lucru create n Crowdower pot publicate pe diverse canale de
crowd-sourcing ce includ si platforma Amazon Mechanical Turk.
ARII 84
o m asura statistica a concordant ei dintre raspunsurile furnizate de utiliza-
tori diferit i. Spre deosebire de alte marimi similare, coecientul Kappa ia n
calcul si concordant a rezultatelor obt inuta din ntamplare (aleator).
S a consideram cazul a doi utilizatori care evalueaza un numar de N en-
titat i ca apart inand a C categorii (categoriile considerate sunt complemen-
tare). De exemplu poate vorba de etichetarea a N imagini ca ind relevante
sau nerelevante (C = 2 n acest caz).
In acest caz coecientul Kappa este
dat de relat ia urmatoare:
=
Pr(a) Pr(e)
1 Pr(e)
(8.1)
unde Pr(a) reprezinta probabilitatea observata relativa de concordant a ntre
utilizatori iar Pr(e) reprezinta probabilitatea ipotetica de concordant a dato-
rat a ntampl arii. Daca raspunsurile utilizatorilor sunt n concordant a com-
plet a atunci valoarea lui este 1 iar similar, daca exista o disconcordant a
total a ntre raspunsuri este 0.
In realitate o valoare a lui superioara a
0.6 este considerata ca ind perfecta.
Pentru exemplicare sa consideram urmatoarele date (sursa Wikipedia):
avem la dispozit ie 50 de propuneri de proiecte de cercetare ce sunt evaluate
ecare de cate doi evaluatori (notat i A si respectiv B). Acestia atribuie pro-
punerilor categoria da sau nu (semnicand acceptarea acestora pentru
nant are sau nu). Presupunand ca datele obt inute sunt cele prezentate n
Tabelul 8.1 (numerele corespund numarului de proiecte pentru care evalua-
torii au furnizat raspunsul da sau nu) atunci probabilitat ile Pr(a) si Pr(e)
sunt estimate n felul urmator:
Pr(a): evaluatorii A si B au acordat impreuna calcativul da pentru
20 de proiecte si respectiv nu pentru 15 proiecte astfel ca probabili-
tatea de concordant a a raspunsurilor este Pr(a) = (20 + 15)/50 = 0.7;
Tabelul 8.1: Exemplu de calcul al coecientului Kappa (sursa Wikipedia).
B B
da nu
A da 20 5
A nu 10 15
Pr(e): n acest caz se observa urmatoarele: evaluatorul A a raspuns
da pentru 25 de proiecte si nu tot pentru 25 ceea ce nseamna
ca evaluatorul A raspunde cu da pentru 50% din cazuri. Similar,
evaluatorul B a raspuns da pentru 30 de proiecte si nu pentru 20
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX
ARII 85
ceea ce nseamna ca evaluatorul B raspunde cu da pentru 60% din
cazuri.
Probabilitatea ca cei doi evaluatori sa raspunda cu da n mod aleator
este 0.5 0.6 = 0.3 iar probabilitatea ca ambii sa raspunda cu nu este
0.5 0.4 = 0.2. Astfel, per total probabilitatea de concordant a aleatoare
este 0.3 + 0.2 = 0.5.
Aplicand relat ia anterioara obt inem n acest caz un coecient Kappa de 0.4
care indica o concordant a relativ scazuta a rezultatelor.
8.2 Evaluarea obiectiva
O alta abordare a problemei evaluarii performant ei sistemelor de indexare
dup a cont inut o constituie metodele de evaluare asa zisa obiectiva. Aces-
tea se bazeaza pe evaluarea performant elor cuanticand erorile de cautare
cu diverse masuri statistice matematice. Pentru a putea evalua o masura
de eroare este necesara cunoasterea apartenent ei datelor la clasele cautate
(datele sa e etichetate) sau cu alte cuvinte ground truth.
Avand n vedere faptul ca este practic imposibil sa dispunem de ground
truth n cazul unei baze de date dinamice (de exemplu de pe Internet) sau
chiar de dimensiune semnicativa, lucru ce ar face procesul de cautare inutil
at ata timp cat datele sunt deja cunoscute, validarea obiectiva se realizeaza
preliminar folosind seturi de date de test. Sistemul se calibreaza astfel pentru
performant a optimala folosind aceste baze de test urmand a implementat
practic ulterior n contextul real. Pentru ca rezultatele unui astfel de proces
de evaluare sa e relevante la scara reala, seturile de date folosite trebuie sa
e reprezentative si cat mai diverse.
Ca ordin de masura, n contextul actual, bazele de test pentru sistemele
de c autare dupa cont inut a imaginilor tind sa cont ina pana la milioane de
imagini n timp ce n contextul video acestea sunt de ordinul sutelor de
mii. Principala limitare este data de efortul necesar etichetarii acestora ce
presupune analiza lor manuala de catre expert i umani. De exemplu, daca
dorim validarea unui sistem de cautare a secvent elor de gol ntr-o baza video
de nregistrari de fotbal, ecare dintre secvent e trebuie parcursa manual si
etichetate momentele de timpn care apar secvent ele cautate. Pe baza acestor
date, rezultatele obt inute de sistemul de cautare automata pot comparate
cu rezultatele ideale obt inute manual.
ARII 86
acestora cititorul se poate raporta la [Manning 08].
In cele ce urmeaza vom
detalia unele dintre abordarile cele mai frecvent ntalnite.
8.2.1 Precision-Recall
Dac a analizam problema cautarii datelor din perspectiva unui sistem de cla-
sicare (vezi exemplu Sect iune 4.2) si anume, rezultatele obt inute n urma
cautarii corespund de fapt unei clasicari binare a datelor existente, acestea
ind etichetate e ca apart inand clasei obiectului cautat (query, clasa A),
e ca apart inand celorlalte clase existente (clasa B), atunci erorile de cautare
pot sintetizate n modul urmator (vezi Tabel 8.2):
tp sau true positive: reprezinta obt inerea unui rezultat corect si
anume obiectul returnat de sistem a fost prezis ca apart inand clasei
A (clasa cautata) acesta corespunzand si n realitate clasei A;
fp sau false positive: reprezinta obt inerea unui rezultat fals si anume
obiectul returnat de sistem a fost prezis ca apart inand clasei A dar n
realitate acesta corespunde unui obiect din clasa B ceea ce conduce la
o predict ie falsa;
Tabelul 8.2: Erori statistice n cazul clasicarii datelor.
clasa reala
clasa A clasa B
clasa prezisa
clasa A tp (true positive) fp (false positive)
clasa B fn (false negative) tn (true negative)
fn sau false negative: reprezinta obt inerea tot a unui rezultat fals
si anume sistemul a prezis ca obiectul returnat apart ine clasei B n
realitate acesta ind din clasa A fapt ce conduce la o non-detect ie,
obiectul A (din clasa cautata) ind pierdut;
tn sau true negative: reprezinta prezicerea rezultatului ca ind un
obiect din clasa B n masura n care acesta este n realitate tot din
clasa B aceasta situat ie ind o conrmare a absent ei obiectului cautat
de tip A.
Cu alte cuvinte, n urma cautarii se pot obt ine doua situat ii de eroare:
obiectul cautat este estimat eronat ca ind un obiect din alta clasa, eroare
cuantizata de raportul fp; si respectiv obiectul cautat nu este gasit, situat ie
cuantizata de raportul fn.
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX
ARII 87
Pe baza acestor erori sunt denite masurile de performant a numite precision
si recall astfel:
precision =
tp
tp +fp
, recall =
tp
tp +fn
(8.2)
Denite n acest fel, precision este o masura a falselor detect ii iar recall o
masura a non-detect iilor. Plaja de valori a acestora se gaseste n intervalul
[0; 1] unde 1 reprezinta cazul ideal n care nu exista nici o falsa detect ie
(fp = 0) si respectiv toate documentele existente n baza au fost gasite
(fn = 0). Se poate observa faptul ca valoarea tp + fn este o constanta
si reprezinta numarul total de obiecte de tip A existente n baza de date
(numarul celor identicate corect + numarul celor care nu au fost returnate).
Daca analizam problema cautarii datelor din perspectiva unui sistem de
indexare clasic n care rezultatele cautarii sunt reprezentate n ordinea des-
crescatoare a relevant ei acestora relativ la obiectul cautat (vezi exemplu
Sect iune 6) atunci modul de calcul al precision si recall este un pic dife-
rit. Diferent a provine din faptul ca evaluarea performant ei se realizeaza de
aceasta data pe un set de rezultate ordonate si care nu reprezinta neaparat
toate documentele disponibile din baza de date (se pot returna doar o parte
din acestea n urma cautarii - de exemplu n cazul bazelor de date de pe
Internet rezultatele cautari sunt limitate la un numar ce poate gestionat
de utilizator).
ARII 88
8.2.2 F-measure
Avand n vedere cele doua situat ii de eroare ce trebuiesc luate n calcul pen-
tru evaluarea performant elor indexarii si anume numarul de false detect ii si
respectiv numarul de non-detect ii, se pune problema care dintre acestea este
mai importanta. Astfel, de exemplu un sistem de indexare care furnizeaza
precision de 95% si recall de 80% este preferabil unui sistem ce furnizeaza
recall de 95% si respectiv precision de 80%? Cu alte cuvinte, care dintre cele
doua situat ii sunt mai dezavantajoase, un sistem n care rata de documente
relevante returnate este mai mare (numar de false detect ii redus) iar numarul
total de documente relevante returnate din numarul total existent n baza
este mai mic (numarul de non-detect ii mai mare), sau situat ia inversa?
ARII 89
cic expertizei criminalistice, de exemplu un sistem de identicare a ampren-
telor, n acest caz este mai important parametrul de recall. Cu alte cuvinte,
este mai important ca sistemul sa e capabil sa returneze toate documentele
relevante existente n baza de date chiar daca numarul de detect ii false este
ridicat. Acestea pot reduse ulterior printr-o analiza manuala a rezultatelor
dar absent a unor documente relevante pentru cautare din rezultate nu mai
poate corectata.
2
precision +recall
(8.5)
unde reprezinta un parametru de reglaj al contribut iei celor doua masuri.
ARII 90
reg asimn fereastra considerata toate rezultatele corecte existente n baza de
date.
ARII 91
modul urmator:
tpr =
tp
tp +fn
, fpr =
fp
fp +tn
(8.8)
unde tp reprezinta numarul de documente returnate corect (vezi ecuat ia 8.2),
fn reprezinta numarul de documente cautate care nu sunt returnate (non-
detect ie), fp reprezinta num arul de documente fals detectate iar tn repre-
zinta numarul de documente ignorate (documente care sunt prezise corect
ca neapart inand clasei cautate). Denite n acest fel, tpr este o masura a
numarului de documente returnate corect iar fpr o masura a numarului de
documente returnate eronat.
Figura 8.4 prezinta doua exemple de curbe ROC, n cazul unui sistem
perfect n care tpr este 100% iar fpr este 0% cat si n cazul unui sistem
complet inecient n care numarul de rezultate corecte este egal cu numarul
de rezultate false, un astfel de sistem neputand practic utilizat.
In realitate,
pentru ca un sistem de indexare sa ofere performant e bune, curba ROC
asociata trebuie sa se situeze ntre cele doua grace, cat mai apropiata de
sistemul ideal.
t
p
r
fpr
t
p
r
fpr
(a)
(b)
Figura 8.4: Exemple de grace de tip ROC pentru: (a) un sistem perfect, (b)
un sistem complet inecient n care numarul de documente returnate eronat
este egal cu numarul de documente returnate corect.
8.2.4 Mean Average Precision
In ultimii ani, pornind din contextul sistemelor de indexare video, s-a im-
pus ca standard de evaluare a performant elor sistemelor de indexare ceea ce
numim Mean Average Precision sau MAP
3
. MAP furnizeaza o masura a ca-
3
vezi utilitar http://trec.nist.gov/trec_eval
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX
ARII 92
lit at ii sistemului pentru diferite valori ale recall (vezi ecuat ie 8.2), totul prin
intermediul unei singure marimi. Acesta se dovedeste n practica a furniza o
bun a stabilitate si discriminant a n evaluarea diferitelor sisteme.
MAP este estimat n modul urmator: daca pentru o anumita cerere de
cautare q
j
, unde j = 1, ..., |Q| cu Q reprezentand mult imea cautarilor posi-
bile pentru sistemul considerat (de exemplu, daca sistemul permite indexa-
rea n funct ie de obiecte atunci Q reprezinta mult imea tuturor obiectelor din
baz a) iar operatorul ||.|| returneaza numarul de elemente ale unei mult imi;
mult imea documentelor relevante din baza este {d
1
, ..., d
m
j
} (numarul de do-
cumente relevante pentru q
j
este m
j
) iar R
jk
reprezinta mult imea primelor
documente returnate pana la documentul d
k
(fereastra de rezultate care in-
clude si documentul d
k
), atunci MAP este denit ca:
MAP(Q) =
1
||Q||
|Q|
j=1
1
m
j
m
j
k=1
precision(R
jk
) (8.9)
unde precision este calculat asa cum a fost denit n ecuat ia 8.2. Cu alte
cuvinte, MAP reprezinta media precision pentru fereastra de rezultate ce
include toate documentele relevante pentru o cautare (termenul Average),
valoare ce este la randul ei mediata pentru toate cautarile posibile (termenul
Mean).
In cazul n care sistemul nu returneaza nici un document relevant
atunci MAP este 0%.
Pentru o singura cerere de cautare (query) MAP poate aproximat ca
ind aria dintre gracului precisionrecall si axa orizontala (vezi Figura 8.3)
si astfel pentru un set de cautari acesta va reprezenta aria medie a gracelor
de precision recall.
CAPITOLUL 9
Paradigme ale indexarii
ARII 94
Figura 9.1: Un anumit obiect poate nregistrat sub o multitudine de re-
prezentari diferite datorate schimbarii unghiului din care este reprezentat,
schimbarii de iluminare, schimbarii fundalului sau ocluziei cu alte obiecte
(surs a imagini [Snoek 10]).
faptului ca un sistem poate funct iona corect din punct de vedere al
algoritmilor, si chiar mai mult, poate antrenat sa raspunda optimal
pentru un anumit domeniu de aplicat ie sau set de date, n realitate
rezultatele obt inute pot sa nu corespunda asteptarilor si a modului de
percept ie uman;
paradigma modelarii (model gap) reprezinta imposibilitatea de
a determina un model general pentru toate obiectele sau entitat ile
informat ionale existente n lume ind limitat i n a modela cazuri par-
ticulare, precum obiecte, concepte, evenimente si asa mai departe. Di-
versitatea informat ionala existenta face imposibil a acoperirea tuturor
cazurilor posibile;
Figura 9.2: Exista o multitudine de obiecte si concepte ce trebuiesc modelate
pentru a putea accesate la nivel de informat ie.
CAPITOLUL 9. PARADIGME ALE INDEX
ARII 95
paradigma intent iei (intention/query gap) reprezinta discrepant a
dintre informat iile pe care utilizatorul doreste sa le gasesca si modul
de exprimare a criteriilor de cautare ntr-un sistem de indexare (vezi
Figura 9.3). Cele mai performante metode existente permit specicarea
criteriilor de cautare sub foma textuala. Acest mod de reprezentare este
limitat la un numar redus de informat ii ce pot furnizate (de regul a
cel mult o propozit ie) nereectand n totalitate informat ia reala dorita;
Figura 9.3: Exista o multitudine de ntrebuint ari ale aceluiasi concept, de
exemplu kiwi poate reprezenta atat o companie aeriana, un fruct sau o
pas are, bear (urs) este foarte similar cu beer (bere) sau grid (caro-
iaj) cu greed (lacom) (exemplu din cursul Indexarea Cont inutului Vizual,
Constantin Vertan, Universitatea Politehnica din Bucuresti).
paradigma utilitat ii (utility gap) reprezinta discrepant a care exista
ntre rezultatele furnizate de sistem si utilitatea reala practic a a aces-
tora pentru utilizator. Ca si n cazul paradigmei semantice, siste-
mul poate performant si sa returneze utilizatorului o multitudine
de informat ii relevante relativ la datele cautate, dar cate dintre aceste
informat ii vor servi n mod real util utilizatorului.
Bibliograe
[Bimbo 99] A. Del Bimbo. Visual Information Retrieval. Morgan
Kaufmann Publishers, San Francisco, USA 1999.
[Bovik 09] Alan C. Bovik. The Essential Guide to Video Processing.
Academic Press, ISBN: 978-0-12-374456-2, 2009.
[Carletta 96] J. Carletta. Assessing agreement on classication tasks:
The kappa statistic. Computational Linguistics, vol. 22,
nr. 2, pag. 249254, 1996.
[CITIA 13] CITIA. City of Moving Images, International Animated
Film Festival of Annecy, France. http://www.citia.info,
2013.
[Ciuc 05] M. Ciuc & C. Vertan. Prelucrarea Statistica a Semnalelor.
Editura MatrixRom, http://www.miv.ro/books/MCiuc_
CVertan_PSS.pdf, 2005.
[Deza 06] E. Deza & M.M. Deza. Dictionary of Distances. Elsevier
Science, 1st edition, ISBN-10:0444520872, 2006.
[Flickner 95] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Hu-
ang, B. Dom, M. Gorkani, J. Hafner, D. Lee, D. Patkovic,
D. Steele & P. Yanker. Query by Image and Video Con-
tent: The QBIC System. IEEE Computer, vol. 28, nr. 9,
pag. 2332, septembrie 1995.
97
BIBLIOGRAFIE 98
[Gauglitz 11] S. Gauglitz, T. Hollerer & M. Turk. Evaluation of Inte-
rest Point Detectors and Feature Descriptors for Visual
Tracking. Int J. Comput Vis, vol. DOI 10.1007/s11263-
011-0431-5, 2011.
[G omez-Perez 04] A. Gomez-Perez, M. Fernandez-Lopez & O. Corcho. Lec-
ture Notes: Multimedia Information Systems. Ontological
Engineering: With Examples from the Areas of Know-
ledge Management, E-commerce and the Semantic Web,
Springer. ISBN 978-1-85233-551-9., 2004.
[Ionescu 09] B. Ionescu. Analiza si Prelucrarea Secvent elor Video: In-
dexarea Automata dupa Cont inut. Editura Tehnica Bu-
curesti, ISBN 978-973-31-2354-5, 2009.
[Ionescu 10] B. Ionescu, L. Ott, P. Lambert, D. Coquin, A. Pacureanu
& V. Buzuloiu. Tackling Action - Based Video Abstraction
of Animated Movies for Video Browsing. SPIE - Journal
of Electronic Imaging, vol. 19, nr. 3, 2010.
[Ionescu 11] B. Ionescu, C. Rasche, C. Vertan & P. Lambert. A
Contour-Color-Action Approach to Automatic Classica-
tion of Several Common Video Genres. Springer-Verlag
LNCS - Lecture Notes in Computer Science, Eds. M. Dety-
niecki, P. Knees, A. Nurnberger, M. Schedl and S. Stober,
vol. 6817, pag. 7488, 2011.
[Ionescu 12a] B. Ionescu, K. Seyerlehner, C. Rasche, C. Vertan &
P. Lambert. Content-based Video Description for Automa-
tic Video Genre Categorization. International Conference
on MultiMedia Modeling, 2012.
[Ionescu 12b] B. Ionescu, K. Seyerlehner, C. Rasche, C. Vertan &
P. Lambert. Video Genre Categorization and Represen-
tation using Audio-Visual Information. SPIE - Journal of
Electronic Imaging, vol. 21, nr. 2, 2012.
[Ionescu 13] B. Ionescu, J. Schl uter, I. Mironica & M. Schedl. A Naive
Mid-level Concept-based Fusion Approach to Violence De-
tection in Hollywood Movies. ACM International Confe-
rence on Multimedia Retrieval, 2013.
[Jain 89] Anil K. Jain. Fundamentals of digital image processing.
Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1989.
BIBLIOGRAFIE 99
[Kelly 03] D. Kelly & J. Teevan. Implicit Feedback for Inferring
User Preference: a Bibliography. International Conference
on Research and Development in Information Retrieval,
vol. 37, nr. 2, pag. 1828, 2003.
[Knees 07] P. Knees, M. Schedl, T. Pohle & G. Widmer. Exploring
Music Collections in Virtual Landscapes. IEEE MultiMe-
dia, vol. 14, nr. 3, pag. 4654, 2007.
[Knees 09] P. Knees, T. Pohle, M. Schedl, D. Schnitzer, K. Seyerleh-
ner & G. Widmer. Augmenting Text-Based Music Retrie-
val with Audio Similarity. International Society for Music
Information Retrieval, 2009.
[Kotsiantis 07] S.B. Kotsiantis. Supervised Machine Learning: A Review
of Classication Techniques. Informatica, vol. 31, pag.
249268, 2007.
[Kyungpook 06] National University Kyungpook. Articial Intelligence
Laboratory. http://ailab.kyungpook.ac.kr/vindex/
video-view.html, 2006.
[Lamel 08] L. Lamel & J.-L. Gauvain. Speech Processing for Au-
dio Indexing. Int. Conf. on Natural Language Processing,
vol. LNCS, 5221, pag. 415, 2008.
[Lan 12] Z. Lan, L. Bao, S.-I. Yu, W. Liu & A.G. Hauptmann. Do-
uble Fusion for Multimedia Event Detection. International
Conference on Multimedia Modeling, Klagenfurt, Austria,
2012.
[Larson 10] Ray R. Larson. Blind Relevance Feedback for the Image-
CLEF Wikipedia Retrieval Task. CLEF 2010 LABs and
Workshops, Notebook Papers, pag. 2223, 2010.
[Lienhart 01] R. Lienhart. Reliable Transition Detection in Videos:
A Survey and Practitiners Guide. MRL, Intel Corpo-
ration, http://www.lienhart.de/Publications/IJIG_
AUG2001.pdf, august, Santa Clara, USA 2001.
[Maillet 03] S.M. Maillet. Content-Based Video Retrieval: An Over-
view. http://viper.unige.ch/
~
marchand/CBVR/, 2003.
BIBLIOGRAFIE 100
[Manning 08] C.D. Manning, P. Raghavan & H. Sch utze. Introduction to
Information Retrieval. Cambridge University Press, http:
//nlp.stanford.edu/IR-book/, 2008.
[Mathieu 10] B. Mathieu, S. Essid, T. Fillon, J. Prado & G. Richard.
YAAFE an Easy to Use and Ecient Audio Feature Ex-
traction Software. 11th ISMIR conference, Utrecht, Ne-
therlands, 2010.
[Mingqiang 08] Y. Mingqiang, K. Kidiyo & R. Joseph. A Survey of Shape
Feature Extraction Techniques. Pattern Recognition, pag.
4390, 2008.
[Mironica 12a] I. Mironica, B. Ionescu & C. Vertan. Hierarchical Clus-
tering Relevance Feedback for Content-Based Image Re-
trieval. 10th International Workshop on Content-Based
Multimedia Indexing, Annecy, France 2012.
[Mironica 12b] I. Mironica, B. Ionescu & C. Vertan. The Inuence of the
Similarity Measure to Relevance Feedback. 20th European
Signal Processing Conference EUSIPCO, 2012.
[Nakazato 01] M. Nakazato & S. T. Huang. 3D MARS: Immersive vir-
tual reality for content based image retrieval. IEEE Inter-
national Conference on Multimedia and Exposition, pag.
4548, 2001.
[Nowak 10] S. Nowak & S. R uger. How reliable are annotations via
crowdsourcing? a study about inter-annotator agreement
for multi-label image annotation. Int. Conf. on Multimedia
Information Retrieval, pag. 557, 2010.
[Orchard 91] M. Orchard & C. Bouman. Color Quantization of Images.
IEEE Trans. on Sig. Proc., vol. 39, nr. 12, pag. 26772690,
1991.
[Over 12] Paul Over, George Awad, Martial Michel, Jonathan Fis-
cus, Greg Sanders, Barbara Shaw, Wessel Kraaij, Alan F.
Smeaton & Georges Queenot. TRECVID 2012 An Over-
view of the Goals, Tasks, Data, Evaluation Mechanisms
and Metrics. In Proceedings of TRECVID 2012. NIST,
USA, 2012.
BIBLIOGRAFIE 101
[Reynertson 70] A. J. Reynertson. The Work of the Film Director. Has-
tings House, 1970.
[Rocchio 71] J. Rocchio. Relevance Feedback in Information Retrieval.
The Smart Retrieval System Experiments in Automatic
Document Processing, Prentice Hall, Englewood Clis NJ,
pag. 313323, 1971.
[Rooij 08] O. Rooij, C. G. M. Snoek, & M. Worring. Mediamill: Fast
and eective video search using the ForkBrowser. ACM
International Conference on Image and Video Retrieval,
2008.
[Rooij 10] O. Rooij, M. Worring & J. J. van Wijk. MediaTable: In-
teractive Categorization of Multimedia Collections. IEEE
Computer Graphics and Applications, vol. 30, nr. 5, pag.
4251, 2010.
[Rubner 00] Y. Rubner, C. Tomasi & L.J. Guibas. The Earth Movers
Distance as a Metric for Image Retrieval. International
Journal of Computer Vision, vol. 40, nr. 2, pag. 99121,
2000.
[Rui 99] Y. Rui, T. Huang & S.-F. Chang. Image Retrieval: Cur-
rent Techniques, Promising Directions and Open Issues.
Journal of Visual Communication and Image Representa-
tion, vol. 10, nr. 1, pag. 3962, 1999.
[Schoemann 11] K. Schoemann & L. Boeszoermenyi. Image and Video
Browsing with a Cylindrical 3D Storyboard. ACM Inter-
national Conference on Multimedia Retrieval, 2011.
[Seyerlehner 10] K. Seyerlehner, M. Schedl, T. Pohle & P. Knees. Using
Block-Level Features for Genre Classication, Tag Classi-
cation and Music Similarity Estimation. 6th Annual Mu-
sic Information Retrieval Evaluation eXchange (MIREX-
10), Utrecht, Netherlands, 2010.
[Shirahama 11] K. Shirahama & K. Uehara. Query by Virtual Exam-
ple: Video Retrieval Using Example Shots Created by Vir-
tual Reality Techniques. Sixth International Conference
on Image and Graphics, pag. 829834, 2011.
BIBLIOGRAFIE 102
[Smeulders 00] A.W.M. Smeulders, M. Worring, S. Santini, A. Gupta &
R. Jain. Content-Based Image Retrieval at the End of
the Early Years. IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 22, nr. 12, pag. 13491380,
decembrie 2000.
[Snoek 05] C. G. M. Snoek, M. Worring & A. W. M. Smeulders. Early
versus Late Fusion in Semantic Video Analysis. ACM
Multimedia, 2005.
[Snoek 10] C.G.M. Snoek & A.W.M. Smeulders. Video Search
Engines. IEEE Conference on Computer Vision and
Pattern Recognition, http://staff.science.uva.nl/
~
cgmsnoek/videosearch2010/, 2010.
[St ottinger 10] Julian Stottinger, Bogdan Tudor Goras, Nicu Sebe & Al-
lan Hanbury. Behavior and properties of spatio-temporal
local features under visual transformations. 2010.
[Tremeau 04] A. Tremeau, C. Fernandez-Maloigne & P. Bonton. Image
Numerique Couleur: De lAcquisition au Traitement. DU-
NOD ISBN 2-10-006843-1, 2004.
[Truong 07] B.T. Truong & S. Venkatesh. Video Abstraction: A Sys-
tematic Review and Classication. ACM Transactions
on Multimedia Computing, Communications and Appli-
cations, vol. 3, nr. 1, 2007.
[Tuceryan 93] M. Tuceryan & A. K. Jain. Texture analysis. The Han-
dbook of Pattern Recognition and Computer Vision (2nd
Edition), pag. 235276, 1993.
[Wallach 06] Hanna M. Wallach. Topic Modeling: Beyond
Bag-of-Words. University of Cambridge, https:
//people.cs.umass.edu/
~
wallach/talks/beyond_
bag-of-words.pdf, 2006.
[Welling 05] M. Welling. Support Vector Machines. Note de curs, Uni-
versity of Toronto, Department of Computer Science, Can-
ada, http://www.ics.uci.edu/
~
welling/classnotes/
papers_class/SVM.pdf, 2005.
BIBLIOGRAFIE 103
[Witten 05] I.H. Witten & E. Frank. Data Minning - Practical Ma-
chine Learning Tools and Techniques. Elsevier, Morgan
Kaufman Publishers, second edition, pag. 265270, 2005.
[Worring 03] M. Worring. Lecture Notes: Multimedia Information Sys-
tems. Intelligent Sensory Information Systems, University
of Amsterdam, 2003.
[Worring 12] M. Worring. Multimedia Analytics: Exploration of
Large Multimedia Collections. keynote la International
Workshop on Content-Based Multimedia Indexing,
http://www.polytech.univ-savoie.fr/fileadmin/
polytech_autres_sites/sites/cbmi2012/templates/
fichiers/cbmi2012-worring.pdf, 2012.