Sunteți pe pagina 1din 112

Bogdan Ionescu

Ionu Mironic






Conceptul de Indexare Automat dup
Coninut n Contextul Datelor Multimedia























Bucureti, 2013




Prefat a
Ce vrea sa zica asta - indexarea dupa cont inut - cititorul
va gasi n primul capitol, dar sunt tentat sa zic si aici, n
aceste randuri, cateva cuvinte: problema nu e chiar noua.
Cu ceva zeci de ani n urma am aat ca pe alte meleaguri
oamenii se ocupau, pentru cuvinte, cu alcatuirea unor ase-
menea dict ionare. Cele alfabetice, pe care le avem si noi, t i
explica ce vrea sa zica un cuvant pe care l ai dar al carui
sens nu l stii; dar sunt si probleme de alt fel: acolo era
un exemplu de ntamplare n academia spaniola - un vorbitor nu-si aducea
aminte cum se cheama un om nascut pe vapor (noi n-avem cuvant pentru
acest concept). Ne trebuie dict ionare care sa ne duca de la concept la cuvant.
Despre unele popoare primitive se zice ca aveau zeci de cuvinte pentru a de-
numi diferite tipuri de nori; noi n-avem, dar am putea eventual descrie forma
lor, miscarea lor, ca sa precizam la care ne referim cand vrem sa povestim o
nt amplare concreta.

Intr-o biblioteca de un miliard de cart i, cu cate 500 de pagini ecare si


cu 2.000 de semne pe pagina avem nevoie doar de 50 de cifre binare pentru
a identica orice litera, ceea ce mi se pare extrem de put in - la ndemana
umanului: le cuprindem cu ochiul dintr-o privire, pe un rand. Oare nu e
posibil sa avem cai/o cale de a ajunge la obiectul dorit dintr-o colect ie
vast a, cunoscandu-l prin calitat ile sale (facute cumva masurabile: da-nu,
rosu-albastru-galben-verde, o valoare ntreaga ntre 1 si 100, 17 grade de
turtire a unui cerc n elipsa, etc.)? Obiectele de care vorbeam pot entitat i
foarte complexe: o imagine, o secvent a de lm mut, entitat i multimodale
(vorba, sunete, imagini, text, etc.). Parca suntem tentat i a zice da. Dar acum
vine partea dicil a a problemei, si n acelasi timp frumoasa prin efortul de
i
ii
creat ie pe care ni-l cere (aspectul care ne provoaca, ne desde, englezul ar
zice chalenging): pe de o parte, n cazul concret al unei colect ii de un
tip dat (de pietre, de gaze, de lme), care sunt atributele, cum le denim
ca s a caracterizam cat mai compact si mai corect, acea colect ie; pe de alta
parte, n fat a unui obiect din colect ie, cum masuram automat, adica nu prin
intervent ia omului (n cazul asta avem nevoie de un specialist n domeniu!),
aceste atribute.
Fara acest mic amanunt aici, automat, suntem pierdut i indca operat ia
manual a de adnotare cu atribute a obiectelor este consumatoare de timp n
asa masura ca ne face ntreprinderea lipsita de sens.

In momentul de fat a al scurtei noastre istorii de cateva sute de ani, suntem


n pericol de a necat i n informat ii care pe de o parte multe ne sunt vitale
si pe de alta, n ansamblul lor ne coplesesc, fara a putea ajunge la cele de
care avem nevoie suntem ca nsetatul din pustiu peste care nav aleste marea.
Indexarea automata dupa cont inut ne poate salva.
Extras din prefat a cart ii Analiza si Prelucrarea Secvent elor Video: Indexa-
rea Automata dupa Cont inut, Editura Tehnica Bucuresti, 2009.
Prof. univ. dr. ing. Vasile BUZULOIU (1938 - 2012)
Bucuresti 17 Noiembrie 2008
Cuvantul autorului
Indexarea automata dupa cont inut a datelor este un domeniu de actuali-
tate ce castiga din ce n ce mai mult teren datorita necesitat ii crescande de
exploatare a volumelor mari de date multimedia.
Progresul tehnologic al dispozitivelor de achizit ie si prelucrare a datelor
(terminale mobile, sisteme de calcul, medii de stocare, dispozitive de redare
si captura audio-video) cat si a infrastructurii de transmisie de date (pro-
tocoale de transmisie fara r: WiFi, Bluetooth, ret ele LAN de mare viteza,
telefonia multimedia 3G si 4G) au condus practic la simplicarea stoc arii,
transmisiunii si prelucrarii volumului important de date specic multimedia
(video, imagini, sunet, text).
Marturie n acest sens este raspandirea Internet-ului n tot mai multe
medii sociale si posibilitatea de accesare a acestuia de pe o categorie tot mai
diversa de dispozitive electronice. La acestea se adauga si succesul imens de
care se bucura ret elele de socializare si platformele multimedia on-line, Fa-
cebook, Twitter, Linkedln, Google+, YouTube, Dailymotion, Picasa, Flickr
sunt doar cateva exemple dintre acestea.
Dinamica partajarii datelor pe Internet este una coplesitoare, aceasta rea-
lizandu-se practic n timp real de pe orice terminal multimedia. Urmatoarele
statistici sunt edicatoare n acest sens: n 2012 mai mult de 72 de ore video
sunt ncarcate n ecare minut pe platforma YouTube, mai mult de 500 de
ani de video de pe platforma YouTube sunt vizualizat i zilnic de pe platforma
de socializare Facebook, mai mult de 700 de nregistrari video de pe YouTube
sunt partajate n ecare minut pe reteaua de socializare Twitter.

In societatea curenta, accesul la informat ia multimedia a devenit parte


integranta din viat a noastra de zi cu zi. Problema cu care ne confruntam nu
este lipsa informat iei, ci imposibilitatea de a selecta dintr-un vast amalgam
iii
iv
de date, informat iile utile. Aceasta problema este cu atat mai dicila cu cat
cont inutul acestor date a devenit din ce n ce mai complex.
Pana nu demult, cand faceam referire la informat ie multimedia ne adre-
sam imaginilor, nregistrarilor audio sau eventual video.

In prezent conceptul
de multimedia vine sa reuneasca toate aceste informat ii sub umbrela unei
singure paradigme si anume aceea a reprezentarii multimodale a informat iei.
Datele multimedia sunt practic metadate ce reunesc orice tip de informat ie
video, audio si textuala. Metodele de prelucrare trebuie sa se adapteze aces-
tor noi cerint e n care analiza de cont inut este unitara si nu realizata inde-
pendent pentru ecare sursa de informat ii.

In acest context, lucrarea de fat a vine sa realizeze o trecere n revista


a domeniului indexarii automate dupa cont inut a datelor multimedia si sa
discute solut iile existente.
Lucrarea este structurata n felul urmator.

In primul rand este introdusa
problematica indexarii datelor si aplicat iile acesteia (Capitolul 1). Mai de-
parte, este prezentat detaliat mecanismul de funct ionare al unui sistem de
indexare ce implica descrierea cont inutului datelor, mecanismul de cautare
a datelor si respectiv interact ia cu utilizatorul (Capitolul 2). Capitolul 3
realizeaza o trecere n revista a tehnicilor de descriere a cont inutului datelor
folosind informat ia vizuala, audio si respectiv textuala. Capitolul 4 se intere-
seaz a de tehnicile de fuziune a informat iei specice abordarilor multimodale
ce exploateaza date heterogene. Mai departe este adusa n discut ie problema
evaluarii similaritat ii datelor (Capitolul 5). Tehnicile de interact ie cu utiliza-
torul n vederea mbunatat irii performant elor de indexare sunt prezentate n
Capitolul 6. Capitolul 7 discuta problematica vizualizarii informat iei multi-
media si n special a datelor video.

In nal, Capitolul 8 prezinta o serie de
modalitat ii de evaluare subiectiva si obiectiva a performant elor unui sistem
de indexare iar Capitolul 9 concluzioneaza lucrarea sintetizand paradigmele
actuale ale sistemelor de indexare.
Lucrarea de fat a se doreste a un studiu introductiv al domeniului, fur-
niz and cititorului o vedere de ansamblu asupra tehnicilor de prelucrare afe-
rente sistemelor de indexare si a avantajelor si limitarilor acestora. Pentru o
descriere detaliata, cititorul estendrumat sa consulte referint ele bibliograce
furnizate.
S.l. univ. dr. ing. Bogdan IONESCU
Bucuresti 26 Aprilie 2013
Cuprins
1 Introducere 1
2 Mecanismul de indexare dupa cont inut 7
2.1 Descrierea cont inutului datelor . . . . . . . . . . . . . . . . . . 10
2.2 Formularea cautarii . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Cautarea datelor . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Interact ia cu utilizatorul . . . . . . . . . . . . . . . . . . . . . 15
3 Descrierea cont inutului multimodal 19
3.1 Informat ia vizuala . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 Informat ia audio . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Informat ia textuala . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Descriere semantica sau sintactica? . . . . . . . . . . . . . . . 37
4 Fuziunea datelor 41
4.1 Metode de tip early fusion . . . . . . . . . . . . . . . . . . . 41
4.2 Metode de tip late fusion . . . . . . . . . . . . . . . . . . . 44
5 Conceptul de similaritate a datelor 49
5.1 Similaritatea descriptorilor . . . . . . . . . . . . . . . . . . . . 49
5.2 Similaritatea la nivel de structura . . . . . . . . . . . . . . . . 55
5.3 Similaritatea semantica . . . . . . . . . . . . . . . . . . . . . . 56
6 Tehnicile de tip relevance feedback 59
6.1 Algoritmul Rocchio . . . . . . . . . . . . . . . . . . . . . . . . 63
6.2 Estimarea important ei atributelor . . . . . . . . . . . . . . . . 64
v
CUPRINS vi
6.3 Support Vector Machines . . . . . . . . . . . . . . . . . . . . . 66
7 Vizualizarea cont inutului multimedia 73
8 Evaluarea perfomant elor indexarii 79
8.1 Evaluarea subiectiva . . . . . . . . . . . . . . . . . . . . . . . 79
8.2 Evaluarea obiectiva . . . . . . . . . . . . . . . . . . . . . . . . 85
8.2.1 Precision-Recall . . . . . . . . . . . . . . . . . . . . . . 86
8.2.2 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . 88
8.2.3 Curba de precision-recall si ROC . . . . . . . . . . . . 89
8.2.4 Mean Average Precision . . . . . . . . . . . . . . . . . 91
9 Paradigme ale indexarii 93
Bibliograe 97
CAPITOLUL 1
Introducere
Dac a n urma cu aproximativ un deceniu, cantitatea de informat ie multime-
dia disponibil a era una redusa, n zilele noastre putem vorbi despre o explozie
informat ionala. Accesul la informat ia multimedia sau cont inut, e ca este
vorba de imagini, sunet, text sau video, a devenit practic parte integranta din
viat a noastra de zi cu zi. Evolut ia tehnologica a dispozitivelor de achizit ie
si prelucrare a datelor (terminale mobile, sisteme de calcul, medii de sto-
care, dispozitive de redare si captura audio-video) cat si a infrastructurii de
transmisie de date (protocoale de transmisie fara r: WiFi, Bluetooth, ret ele
LAN de mare viteza, telefonia multimedia 3G si 4G) au dus la cresterea
exponent ial a a volumului multimedia prin facilitarea stocarii si prelucrarii
acestuia.
La acestea contribuie semnicativ si raspandirea Internet-ului n tot mai
multe medii sociale precum si succesul imens de care se bucura ret elele de so-
cializare on-line (exemplu: Facebook
1
, Twitter
2
, Linkedln
3
, Google+
4
) cat
si platformele web multimedia (exemplu: YouTube
5
, Dailymotion
6
, Picasa
7
,
Flickr
8
). Pe l anga product ia de cont inut multimedia sa spunem comercial
1
https://www.facebook.com
2
https://twitter.com
3
http://ro.linkedin.com
4
https://plus.google.com
5
https://www.youtube.com
6
https://www.dailymotion.com
7
http://picasa.google.com
8
https://www.flickr.com
1
CAPITOLUL 1. INTRODUCERE 2
(realizat de companii n vederea comercializarii), accesul la ret ele de sociali-
zare si platfome web a condus practic la facilitarea posibilitat ii de a partaja
si accesa date multimedia personale, generate de utilizatorii de r and, precum
fotograi, lme din colect iile personale, reportaje, video blogging si asa
mai departe. Acestea reprezinta o sursa imensa de cont inut multimedia, sa
luam ca exemplu ret eaua de socializare Facebook care n 2012 nsuma nu mai
put in de 1.2 miliarde de utilizatori ce partajeaza informat ii multimedia.

In prezent dinamica partajarii datelor pe Internet este una coplesitoare


aceasta realizandu-se practic n timp real de pe orice terminal multimedia,
at at mobil (de exemplu telefonul mobil) cat si x. Prin simpla apasare a unui
buton, o nregistrare video sau imagine poate ncarcata imediat on-line.
Urmatoarele statistici sunt edicatoare n acest sens: n 2012 mai mult de
72 de ore video sunt ncarcate n ecare minut pe platforma YouTube, mai
mult de 500 de ani de video de pe platforma YouTube sunt vizualizat i zil-
nic de pe platforma de socializare Facebook, mai mult de 700 de nregistrari
video de pe YouTube sunt partajate n ecare minut pe reteaua de sociali-
zare Twitter. Dintre informat iile multimedia cel mai frecvent tranzact ionate,
cont inutul video on-line reprezinta cea mai mare categorie de date vehi-
culate pe Internet, cuprinzand n 2012 26% din tracul total de date (sursa
CISCO Systems
9
). Pana n 2015 se estimeaza ca mai mult de 1 million de
minute video (674 zile) vor traversa Internetul n ecare secunda.
Astfel ca problema cu care ne confruntam acum nu este lipsa de informat ie,
ci, dimpotriva imposibilitatea de a select iona din volumul informat ional imens
disponibil, informat ia utila cautata. Am ajuns n punctul n care acest lucru
nu mai poate realizat de operatori umani si este necesara preluarea acestei
sarcini de catre calculator.
Aceasta problematica de cercetare se gaseste la auent a unor domenii
precum prelucrarea si analiza semnalelor (signal processing), vederii asis-
tate de calculator (computer vision) si al clasicarii datelor (data mi-
ning). Important a acestei direct ii de cercetare a dat nastere unor domenii
dedicate precum multimedia si al cautarii de informat ii (information
retrieval). Cercetarile actuale vizeaza dezvoltarea de metode automate ca-
pabile sa nt eleaga cont inutul datelor si sa il puna la dispozit ia utilizatorului
ntr-un mod foarte apropiat de modul n care o persoana ar realiza acest
lucru (apropiat de modul de percept ie uman).
O potent ial a solut ie la problema cautarii informat iei multimedia a fost
discutata cu mai mult timpn urma n contextul cautarii de imagini si consta
n folosirea de tehnici de indexare automata dupa cont inut [Smeulders 00].
Transpuse n contextul actual tehnologic, aceste tehnici trebuie acum sa se
9
http://www.cisco.com
CAPITOLUL 1. INTRODUCERE 3
adapteze, pe de-o parte unui volum imens de date, de exemplu n cazul
video doar 1 minut este echivalentul a 1.500 de imagini statice si astfel o
singura secvent a video echivaleaza cont inutul unei ntregi colect ii de imagini;
cat si manipul arii de cont inut temporal, n miscare (video) si multimodal
(text-sunet-imagine).

In ciuda unei disponibilitat ii de putere de calcul n
continua crestere (n prezent un simplu telefon mobil foloseste procesoare
cu patru nuclee de prelucrare si frecvent e de 1.6 GHz) compexitatea acestei
probleme necesita optimizarea si paralelizarea metodelor. Acestea trebuie sa
e eciente computat ional pentru a putea aplicate la scara larga colect iilor
de pe Internet.
Cat de departe este tehnologia actuala pentru a realiza acest lucru? Sa
luam ca exemplu cazul simplicat al cautarii dupa cont inut al imaginilor.

In
Figura 1.1 am prezentat rezultatele obt inute pentru cautarea unor imagini
ce cont in nuferi galbeni folosind motorul de cautare propus de Google
si anume Google Search by Image
10
- considerat una dintre tehnologiile de
v arf n prezent. Pentru a specica datele dorite, am furnizat ca exemplu o
imagine.
imagine exemplu
Figura 1.1: Exemplu de cautare dupa cont inut pentru o imagine cu un nufar
galben (water lily, imagine stanga) folosind motorul de cautare Google
Search by Image. Imaginile din dreapta reprezinta primele sase rezultate
obt inute n ordinea descrescatoare a similaritat ii (ordine sus n jos si de la
stanga la dreapta).
Se poate observa can ciuda faptului ca imaginile returnate au proprietat i
vizuale similare cu imaginea data drept referint a, semnicat ia semantica a
acestora poate complet diferita. De exemplu, primim ca rezultat alte tipuri
de ori sau chiar o persoana cu un tricou avand culori similare. Cu toate ca
sistemele de cautare dupa cont inut a imaginilor au n acest moment aproape
doua decenii de existent a, si aici ne referim nu la tehnologia n sine ci la
sisteme funct ionale, un exemplu n acest sens ind sistemul Query By Image
Content QBIC propus de IBM n 1995 [Flickner 95], tehnologia actuala nu
10
http://images.google.com
CAPITOLUL 1. INTRODUCERE 4
este nca capabil a sa atinga un nivel apropiat de modul n care o persoana
ar rezolva problema cautarii, manual.
Tehnicile de cautare dupa cont inut a informat iei video sunt si mai put in
dezvoltate n acest moment limitandu-se n principal n a extensii tempo-
rale ale celor aplicate n cazul imaginilor statice (de exemplu pentru a lua n
calcul dimensiunea temporala de miscare).

In prezent, nu exista un sistem
de cautare dupa cont inut video disponibil public, ncercarile existente ind
doar experimentale, adaptate la baze video o-line de dimensiuni reduse
(n cazul cel mai bun de sute de mii de secvent e) si limitate n a se adresa
unor aplicat ii particulare (de exemplu cautarea de cont inut de stiri, sport, ca-
talogarea colect iilor de lme dupa gen, identicarea cont inutului de animat ie
si asa mai departe).
Platformele de cautare multimedia existente sunt limitate n a folosii
doar informat ie textuala, precum descrierile asociate de catre utilizatori da-
telor. De exemplu, o nregistrare cu turnul Eiel poate nsot ita de o
descriere de genul vizita turnul Eiel, Paris 2013. Utilizatorul va cauta
informat ia dorita furnizand tot o descriere textuala a acesteia, ca de exem-
plu cauta toate nregistrarile cu turnul Eiel, furnizand aceste cuvinte
cheie. Informat ia furnizata va comparata cu cea asociata datelor obtinand
ca rezultat secvent ele corespunzatoare, precum secvent a etichetata anterior.
Aparent problema pare a rezolvata. Totusi, informat ia textuala este li-
mitata n a furniza doar o descriere globala si part iala a cont inutului.

In
exemplul anterior, sistemul pe baza descrierilor existente nu va capabil
de exemplu sa identice prezenta unei anumite persoane n acea nregistrare
deoarece aceasta informat ie lipseste din descriere. Mai mult, descrierile tex-
tuale nu pot determinate n mod automat, necesitand intervent ia umana.
Extrapol and aceasta problema la dimensiunea bazelor multimedia de pe In-
ternet, asocierea de descrieri textuale care sa detalieze cont inutul datelor
video devine practic imposibil a.
Solut ia la problema cautarii dupa cont inut a datelor multimedia nu se
g aseste la nivel de modalitate individuala si anume la nivel de imagine, vi-
deo, sunet sau chiar text. Solut ia t ine de o abordare globala interdisciplinara
a acestei problematici prin interact ionarea informat iilor multimodale extrase
din toate sursele de informat ie disponibile, de la culoare, textura, forme,
miscare, informat ie temporal a pana la sunet, voce, text si asa mai departe.
Aceasta constituie de fapt tendit a actuala de cercetare. Folosirea indepen-
denta a surselor de informat ie se dovedeste inecienta pentru a rezolva o
problema atat de complexa precum nt elegerea automata a cont inutului da-
telor multimedia. Ca referint an acest sens sunt campaniile TRECVID Video
CAPITOLUL 1. INTRODUCERE 5
Retrieval Evaluation Benchmarking Campaign
11
, MediaEval Benchmarking
Initiative for Multimedia Evaluation
12
, ImageCLEF The CLEF Cross Lan-
guage Image Retrieval Track
13
sau PASCAL Challenge - Pattern Analysis,
Statistical Modelling and Computational Learning
14
ce anual prezinta teh-
nologiile si bunele practici curente din domeniu. Cititorul se poate raporta la
acestea pentru o vedere de ansamblu a progresului tehnologic actual n acest
domeniu.

In cele ce urmeaza vom face o trecere n revista a tehnicilor ce stau


la baza procesului de indexare dupa cont inut, a tehnicilor de descriere a
cont inutului datelor si a surselor informat ionale exploatate, a tehnicilor de
fuziune a informat iilor multimodale, tehnicilor de integrare a opiniei utili-
zatorului n procesul de indexare, a problematicii vizualizarii cont inutului
multimedia, a modului de evaluare al performant elor unui sistem de inde-
xare ncheind cu prezentarea barierelor actuale ale sistemelor de indexare
dup a cont inut.
11
http://trecvid.nist.gov
12
http://www.multimediaeval.org
13
http://www.imageclef.org
14
http://pascallin.ecs.soton.ac.uk/challenges/VOC
CAPITOLUL 2
Mecanismul de indexare dupa cont inut
Conceptul de indexare folosit pentru cautarea datelor este denit ca ind
procesul de adnotare a informat iei existente ntr-o colect ie de date, prin
adaugarea de informat ii suplimentare relative la cont inutul acesteia, infor-
mat ii numite si indici de cont inut [Kyungpook 06]. Aceasta etapa este ne-
cesara accesarii colect iei de date, deoarece permite catalogarea automata n
funct ie de cont inut a datelor.

Intr-o colect ie de date sucient de vasta, putem spune ca datele care nu au


fost adnotate sunt practic inexistente pentru utilizator. Un exemplu simplu
de sistem de indexare este nsusi sistemul de siere al oricarui calculator
personal. Acesta ne furnizeaza datele aate pe diversele medii de stocare
(disc dur, memorie externa, etc.) sub forma de siere ce sunt indexate dupa
informat ii precum nume, extensie, data, si asa mai departe. Sa ne imaginam
situat ia n care un sier a fost omis din aceasta lista de indici, cu toate ca
el este prezent zic pe suportul de stocare, acesta va invizibil si inaccesibil
pentru utilizatorul de rand.
Procesul de adnotare a datelor este vazut din doua perspective: pe de-o
parte exista adnotarea manuala, iar pe de alta parte adnotarea automata.
Gradul de complexitate al adnotarii este direct proport ional cu nivelul de
detaliu dorit pentru accesarea datelor. Daca se doreste ca utilizatorul sa
poata accesa datele folosind criterii mai complexe, ca de exemplu cautarea
unei anumite secvent e video pentru care nu se cunoaste nici numele, nici
extensia sierului, dar totusi utilizatorul dispune de informat ii referitoare la
cont inutul vizual al acesteia, n aceasta situat ie, procesul de indexare va
mult mai complex, necesitand ntelegerea de catre calculator a cont inutului
7
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 8
datelor.
Astfel, n cazul unei indexari dupa criterii complexe de cont inut, adnota-
rea manual a este foarte dicil de realizat, deoarece necesita un numar impor-
tant de operatori umani. Acestia ar trebui sa rasfoiasca manual ntregul
cont inut al bazei de date pentru denirea indicilor de cont inut. Luand n
calcul faptul ca o astfel de colect ie de date este n prezent practic nelimitata
(exemplul sunt colect iile de pe Internet), indexarea manuala devine impo-
sibil a.

In acest moment, cercetarile existente n domeniu se focalizeaz a pe
dezvoltarea de algoritmi de adnotare automata a cont inutului, mai ales n ca-
zul datelor ce necesita un timp important pentru vizualizare, ca de exemplu
documentele video.
Cu toate ca adnotarea cont inutului datelor este solut ia optimala pentru
a accesa informat ia util a dintr-o vasta colect ie de date, aceasta nu este si
sucienta. Adnotarea n sine nu ofera decat o serie de date suplimentare,
putem spune, de nivel semantic inferior (low-level), care deseori sunt inac-
cesibile utilizatorului neavizat. Pentru a accesa baza de date, utilizatorul
trebuie sa dispuna de o modalitate prin care sa poata accesa sau vizualiza
usor datele, e pe baza indicilor, e n mod direct. Aceasta trebuie sa aiba o
funct ionalitate naturala si intuitiva. Sistemul care permite utilizatorului sa
vizualizeze cont inutul bazei de date poarta numele de sistem de navigare.
Pe de alta parte, accesul la date presupune un proces de cautare. Utiliza-
torul trebuie sa mai dispuna, pe langa sistemul de navigare, de un mecanism
care sa-i permita cautarea informat iilor dorite n baza de date. Cautarea
se realizeaza prin formularea de cereri de cautare sau queries. Pentru
usurint a, o astfel de cerere trebuie sa e exprimata ntr-un limbaj natu-
ral, apropiat de limbajul uman, cum ar de exemplu cauta lmele de
act iune sau cauta imaginile ce cont in peisaje. Sistemul care raspunde
acestor cerint e poarta numele de sistem de cautare. Figura 2.1 sintetizeaza
aceste aspecte prezentand schematic modul de funct ionare al unui sistem
generic de indexare a datelor.
Astfel, pentru a sintetiza, mecanismul de indexare si cautare a datelor
presupune realizarea urmatoarelor etape:
descrierea cont inutului datelor: ntr-o prima etapa, informat ia
propriu-zisa din baza de date este reprezentata prin intermediul atri-
butelor de cont inut, informat ii pe baza carora se realizeaza ntregul
proces de indexare (vezi Sect iunea 2.1);
formularea cererii de cautare: utilizatorul furnizeaza o descriere a
datelor pe care doreste sa le gaseasca prin formularea unei cereri de
cautare (query). Acest lucru poate realizat folosind un exemplu
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 9
atribute inut de con
Baza de date
datele
propriu-zise
rezumate de
coninut
Interfaa cu utilizatorul
navigare
cutare
Figura 2.1: Principiul de funct ionare al unui sistem de indexare dupa
cont inut.
a ceea ce cauta, folosind o descriere textuala a cont inutului datelor
cautate, pe baza unei descrieri grace schematice a propriet at ilor da-
telor cautate si asa mai departe (vezi Sect iunea 2.2);
conversia n descriptori: sistemul de cautare traduce cererea utili-
zatorului n atribute de cont inut folosind un mecanism similar cu cel
folosit la adnotarea cont inutului bazei de date. Acesti descriptori pot
proprietat i de culoare, forme, informat ie audio sau de miscare (vezi
Sect iunea 2.1);
cautarea propriu-zisa: cautarea se realizeaza prin compararea atri-
butelor cererii de cautare cu cele deja stocate n baza de date. Folosind
diverse masuri de distant a si similaritate ntre atribute, sistemul va
cauta datele ce sunt cele mai apropiate (similare) de criterile formulate
(vezi Sect iunea 2.3);
interact ia cu utilizatorul: rezultatele cautarii sunt furnizate utili-
zatorului de regula folosind sistemul de navigare. Acesta presupune o
interfat a vizuala intuitiva n care utilizatorul poate vizualiza ecient
cont inutul datelor.

In mod opt ional, sistemul poate interact iona cu
utilizatorul (feedback) pentru a mbunatat ii performant ele sistemu-
lui, de exemplunregistr and opinia utilizatorului cu privire la relevant a
datelor returnate de sistem (vezi Sect iunea 2.4).

In cele ce urmeaza vom detalia ecare dintre aceste etape.


CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 10
2.1 Descrierea cont inutului datelor

Intr-o prima etapa, informat ia propriu-zisa din baza de date este reprezentata
prin intermediul atributelor de cont inut. Sistemul va genera pentru ecare
document o colect ie de atribute ce vor caracteriza proprietat ile relevante
ale cont inutul acestuia (denumit i si descriptori ). De exemplu, documentul
X poate descris de atributele A
1
, A
2
, ..., A
n
unde valorile {a
1
, a
2
, ..., a
n
}
formeaza descriptorul de cont inut. Atributele denesc ceea ce numim spat iul
de caracteristici al datelor, de regula un spat iu n-dimensional.
Atributele pot , e date de nivel semantic scazut, precum masuri sta-
tistice, parametri numerici (de exemplu: histograme de culoare
1
, campuri
vectoriale de miscare, histograme de orientare a contururilor din imagine),
e date simbolice de nivel semantic superior (de exemplu: nume obiecte de
interes, percept ia culorilor, recunoastere text ncrustat n imagine, iden-
ticarea prezent ei umane). Cu alte cuvinte, informat ia init iala heterogena
si multimodal a a fost convertita la o reprezentare uniforma ntr-un sistem
unitar normalizat denit de spat iul de caracteristici. Fiecare document va
caracterizat astfel de o anumita valoare a acestor atribute, denind un punct
unic n spat iu.
Pentru a ilustra aceste aspecte, n Figura 2.2 am prezentat un exemplu
concret de reprezentare a cont inutului n cazul nregistrarilor audio (si n
particular al sunetelor animalelor). Spat iul de caracteristici este denit n
acest caz de trei atribute si anume: entropia Wiener
2
(A
1
), amplitudine
(A
2
) si continuitate n timp (A
3
) (spat iu tridimensional). Astfel, ecare
punct din spat iu, P
i
(reprezentat grac de un cerc) cu i = 1, ..., N unde N
reprezinta numarul de nregistrari disponibile, reprezinta o nregistrare audio
al c arei cont inut a fost descris de valorile atributelor A
1
, A
2
, A
3
, si anume
P
i
= {a
i1
, a
i2
, a
i3
} (vezi si Sect iune 4 relativa la fuziunea descriptorilor). Daca
atributele sunt sucient de discriminatorii, nregistrarile audio similare din
punct de vedere al cont inutului trebuie sa conduca la puncte apropiate spat ial
(vezi cercurile de aceeasi culoare) n timp ce nregistrarile diferite trebuie sa
conduca la puncte distant ate spat ial (vezi punctele de culori diferite).
Tot n aceasta etapa a descrierii cont inutului datelor, opt ional, se pot
1
histograma unei imagini este o masura a probabilitat ilor discrete de aparit ie a culorilor
(sau a intervalelor de culoare denumite si bini) n imagine, valorile acesteia reprezentand
numarul de aparit ii al unei culori raportat la numarul total de pixeli. Astfel, histograma
are sens de densitate de probabilitate a variabilei aleatoare determinata de valoarea unui
pixel.
2
entropia Wiener este denita ca ind o masura a lat imii si uniformitat ii spectrului
de putere audio. Ca referint a, pe o scala de la 0 la 1, zgomotul alb (semnal aleator cu
densitate spectrala de putere constanta) are o entropie 1 iar un ton pur are o entropie 0.
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 11
entrop e Wiener i
amplitudine
continuitate n timp
query
1
2
3
4 ...
Figura 2.2: Exemplu de spat iu de caracteristici n cazul cont inutului au-
dio (sursa imagine programul de prelucrare audio Sound Analysis Pro,
http://soundanalysispro.com/).
genera descrieri compacte, precum scurte rezumate pentru secvent ele video
sau pasaje de text reprezentative pentru documentele textuale. Rolul aces-
tor rezumate este acela de a ecientiza vizualizarea cont inutului datelor. De
exemplu, pentru o baza de documente video este practic imposibil ca utili-
zatorul sa poata vizualiza rapid cont inutul acesteia.

In acest caz, sistemul
poate furniza utilizatorului doar cateva imagini reprezentative sau un rezu-
mat de cateva secunde (exemplu un trailer) ce reda informat ia cheie din
secvent a.
Daca n urma cu cat iva ani de zile extragerea de atribute putea consi-
derata ca o etapa ce poate realizata o-line, timpul de prelucrare neind
critic, n prezent datorita dinamicii colect iilor multimedia (sa luam ca exem-
plu YouTube ce raporta n 2012 o rata de ncarcare de 72 de ore video pe
minut) aceasta trebuie realizata mult mai rapid decat o prelucrare n timp
real si trebuie sa poata scalabil a (sa poata aplicata unor colect ii de date
dinamice).

In acest punct al indexarii, problema care apare este aceea a relevant ei


atributelor folosite. Diversitatea surselor de informat ie disponibile face di-
cil a ecientizarea reprezentarii datelor. Cu cat creste dimensiunea spat iului
de caracteristici si astfel num arul de atribute folosite la reprezentarea date-
lor cu atat tinde sa creasca redundat a informat iei si sa scada puterea dis-
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 12
criminatorie a acestora. Un descriptor ecient este acela care maximizeaza
informat ia reprezentata si minimizeaza dimensionalitatea datelor. Mai multe
informat ii relative la tehnicile existente de adnotare a cont inutului sunt pre-
zentate n Sect iunea 3.
2.2 Formularea cautarii
Sistemul de cautare va permite utilizatorului sa localizeze informat iile dorite
pe baza formul arii unei cereri de cautare, denumita si query (concept si-
milar celui utilizat n contextul bazelor de date numit si interogare).

In mod
ideal, sistemul trebuie sa poata permite ca aceasta sa e formulata ntr-un
mod cat mai natural si cat mai apropiat de modul de percept ie uman, pentru
a putea la ndemana oricarui utilizator.
Precizia rezultatelor cautarii este n primul rand dependent a de modul
de formulare a cererii de cautare a datelor sau cu alte cuvinte a modului de
descriere a datelor care se doresc a gasite. Formularea adecvata a crite-
riilor de cautare nu este dependenta numai de sistemul de indexare aceasta
depinzand n mare parte si de utilizator.

In primul rand, nivelul de cunoastere de catre utilizator a caracteristicilor


datelor cautate este primul factor ce inuent eaza cautarea. Se ntalnesc de
regul a urmatoarele situat ii posibile [Maillet 03]:
utilizatorul stie cu sigurant a ca datele cautate se aa n baza de date.

In acest caz, t inta este unica iar utilizatorul va capabil sa formuleze


ecient cererea de cautare. Utilizatorul va repeta cautarea pana cand
va obt ine datele dorite;
utilizatorul cauta o anumita informat ie dar nu este sigur ca aceasta este
prezenta n baza de date.

In acest caz, sistemul de indexare are rolul de
a furniza algoritmi de cautare precisi si ecient i pentru ca utilizatorul
sa se decida rapid daca datele dorite sunt cu adevarat prezente n baza
de date. Ranarea ulterioara a cautarii va permite identicarea mai
precisa a datelor cautate;
utilizatorul are informat ii vagi cu privire la ceea ce doreste sa gaseasca
n baza de date.

In aceasta situat ie, sistemul de navigare poate fo-
losit pentru rasfoirea preliminara a cont inutului si identicarea unor
informat ii de interes repozit ionand utilizatorul n una dintre cele doua
situat ii enumerate anterior.
Odata identicata informat ia dorita este necesar un formalism care sa
permita enunt area cererii de cautare n sistemul de cautare. Acesta face
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 13
practic legatura dintre modul de percept ie uman si reprezentarea informat iei
n sistemul respectiv.

In funct ie de natura datelor cautate, n literatura exista
o multitudine de abordari posibile:
folosirea vorbirii: n cazul cautarii textuale (informat ie sub forma
de text) se poate folosi direct comanda vocala. Utilizatorul vorbeste
practic ceea ce doreste sa caute, de exemplu: cauta prognoza meteo
pentru astazi sau cauta informat ii despre posibilitat i de cazare n
Paris. Comanda este transformata folosind algoritmi de recunoastere
automata a vorbirii n text care este comparat mai departe cu datele din
baza. Datorita limitarilor tehnologice a sistemelor de indexare multi-
media, o astfel de abordare foarte generala ramane viabila doar n cazul
cautarii de text, ca de exemplu pe Internet (vezi sistemul Siri de pe dis-
pozitivele iPhone
3
sau sistemul Google Voice Search de pe dispozitivele
cu sistem Android
4
);
folosirea de cuvinte cheie: reprezinta o varianta intermediara a ca-
zului anterior. Cererea de cautare este tot textuala dar este exprimata
ntr-un mod mai restrictiv pe baza unor cuvinte cheie. Pentru ca acest
mecanism sa funct ioneze, datele cautate trebuie sa aiba asociate descri-
eri textuale similare, descrieri ce sunt generate de regula de utilizatori
(de exemplu n momentul n care datele sunt ncarcate pe o platforma
media on-line) sau n mod automat (metodele de adnotare textuala
automata a cont inutului multimedia - tagging - sunt totusi nca des-
tul de imprecise);
folosirea unui concept: este de asemenea legata de specicarea unor
cuvinte cheie. Diferent a fat a de cazul anterior este data de faptul ca
un concept este o not iune destul de generala care face referire la o clasa
de date si nu neaparat la un obiect particular. De exemplu, se doreste
localizarea tuturor imaginilor ce cont in arbori, unde conceptul cautat
este arbore, sau a secvent elor n care apar case, conceptul cautat
ind acela de casa. Not iunea de cautare de concepte este asociata
n prezent datelor video si constituie un pas intermediar n atingerea
unui nivel de descriere textuala. La ora actuala sistemele de cautare
dupa cont inut video sunt limitate n a antrenate la a raspunde unui
numar destul de limitat de concepte (de ordinul miilor - vezi campania
TRECVID
5
);
3
http://www.apple.com/ios/siri
4
http://www.google.com/mobile/voice-search
5
http://trecvid.nist.gov
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 14
folosirea unui exemplu: n acest caz, cererea este formulata folosind
un model al datelor. De exemplu, utilizatorul cauta toate imaginile
asemanatoare cu o anumita imagine de care dispune, imaginea ind
furnizata ca exemplu (vezi sistemul de cautare Google Image Search
6
).
Tot n aceasta categorie intra si cazul n care utilizatorul furnizeaza o
descriere schematica a datelor cautate. De exemplu acesta nu dispune
de o imagine de referint a dar poate reprezenta schematic cont inutul
dorit generand o schit a a imaginii (pozit ionarea anumitor categorii de
obiecte, prezent a anumitor culori si asa mai departe - vezi sistemul
QBIC al Hermitage Museum
7
);
folosirea gesturilor: un mod interesant de formulare a cererii de
cautare o reprezinta gesticularea obiectului care se doreste a cautat.
Acest mod de cautare are totusi un interes mai mult stiint ic deoarece
limitarile ziologice fac imposibil a reprezentarea oricarui obiect prin
intermediul gesturilor (vezi un exemplu n [Shirahama 11]);
fredonarea unui pasaj audio: n cazul cautarii nregistrarilor au-
dio, de regul a muzicale, o modalitate inedita de formulare a cererii de
cautare consta n fredonarea unui pasaj din melodia dorita (vezi de
exemplu sistemul Midomi
8
).
2.3 Cautarea datelor
Pentru a nt elese de sistem, cererile de cautare trebuiesc mai ntai conver-
tite n atribute de cont inut folosind acelasi mecanism ca si n cazul adnotarii
init iale a bazei de date.

In acest fel, cererea de cautare este reprezentata
practic n spat iul de caracteristici denit n etapa anterioara, prin interme-
diul unui descriptor. Mai departe, cautarea propriu-zisa se efectueaza prin
compararea valorilor acestui descriptor cu valorile descriptorilor datelor din
baz a.
Rezultatele cautarii vor acele date ale caror valori sunt cele mai apro-
piate din punct de vedere al unuia sau a mai multor criterii de similaritate,
de exemplu valorile minime ale unei marimi de distant a, folosirea unei baze
de reguli de decizie si asa mai departe (vezi Sect iunea 5).
De exemplu, n cazul sistemului din Figura 2.2, cererea de cautare poate
consta ntr-un exemplu de nregistrare audio. Utilizatorul doreste localizarea
6
http://images.google.com
7
http://www.hermitagemuseum.org/fcgi-bin/db2www/qbicSearch.mac/qbic?
selLang=English
8
http://www.midomi.com
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 15
tuturor nregistrarilor audio similare cu aceasta. Exemplul este convertit de
sistem ntr-o serie de valori ale atributelor folosite la indexare, a
1
, a
2
, a
3
,
denind descriptorul de cautare: query={a
q1
, a
q2
, a
q3
}. Rezultatele cautarii
vor acele nregistari audio ce corespund punctelor cele mai apropiate de
punctul denit de descriptorul de cautare (vezi Figura 2.2). Datorita su-
biectivitat ii procesului de cautare, sistemul nu se limiteaza n a furniza un
singur rezultat, ci va returna o clasicare (ranking) a datelor n ordinea
descrescatoare a similaritat ii: pozit ia 1 - data cea mai similara, pozit ia 2 -
urm atoarea data cea mai similara, pozit ia 3, si asa mai departe.

In acest punct al procesului de indexare, problema principala este deni-


rea conceptului de similaritate dintre date. Daca n cazul datelor numerice
solut ia la aceasta problema se gaseste n matematica (prin conceptul de me-
trica), lucrurile nu sunt asa de evidenten cazul datelor multimedia ce implica
folosirea de descriptori de natura diferita (text-audio-vizuali). De exemplu,
cand doua secvent e pot considerate similare? sau doua pasaje de text?
Aceasta este o problema subiectiva chiar si pentru utilizator.

Intreg procesul
de indexare depinde de modul de denire al masurii de distant a, schimbarea
acesteia poate conduce la rezultate complet diferite. O prezentare detaliata
a m asurilor de distant a folosite n contextul indexarii datelor este realizata
n Sect iunea 5.
2.4 Interact ia cu utilizatorul
Ultima etapa a procesului de indexare consta n interact ia cu utilizatorul.
Aceasta este realizata de regula prin intermediul sistemului de navigare. Sis-
temul de navigare este practic o interfat a graca ce deserveste mai multe
funct ionalitat i.
O prima funct ionalitate, independenta de procesul de cautare, este aceea
de a furniza utilizatorului access direct la datele din baza.

In funct ie de tipul
datelor, poate necesara adoptarea unei strategii complexe. De exemplu, o
baz a de imagini poate vizualizata doar prin reprezentarea n miniatura a
acestor imagini (folosind thumbnails).

In cazul unei baze de secvent e video,
acest lucru poate realizat prin prezentarea a catorva imagini reprezentative
pentru ecare secvent a. Totusi acest mod de prezentare nu este mereu su-
cient deoarece nu furnizeaza nici o informat ie relativa la cont inutul de miscare
(de act iune) specic. O serie de solut ii de reprezentare a cont inutului video
sunt discutate n Sect iunea 7.
O a doua funct ionalitate, si poate cea mai importanta, este aceea de a
pune la dispozit ia utilizatorului rezultatele obt inute n urma etapei descrise
anterior si anume a cautarii dupa anumite criterii. Rezultatele sunt de re-
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 16
gul a vizualizate n ordinea descrescatoare a relevant ei (similaritat ii) fat a de
cererea de cautare.

In nal, o alta funct ionalitate o constituie interact ia cu utilizatorul.



In
ciuda progresului actual al tehnicilor de descriere a cont inutului multimo-
dal, procesul de indexare este inerent limitat de nsasi natura datelor (vezi
Sect iunea 9). Trebuie sa t inem cont ca practic imaginile si nregistrarile
sunt de fapt niste proiect ii limitate, bidimensionale, ale lumii nconjuratoare.
Astfel, dupa cum am prezentat si n introducerea acestui capitol, datorita
puterii discriminatorii limitate a descriptorilor, rezultatele cautarii nu sunt
ntotdeauna adaptate necesit at ii utilizatorului. Pentru a ameliora acest as-
pect, de-a lungul timpului au fost studiate o serie de abordarii ce tind sa
includa n procesul de indexare expertiza umana. Printre acestea, cea mai
cunoscuta poarta numele de Relevance Feedback (RF).
Un scenariu clasic de RF poate formulat n felul urmator: pentru o
anumita cerere de cautare rezultatele obt inute sunt puse la dispozit ia utiliza-
torului n ordinea descrescatoare a relevant ei. Mai departe, utilizatorul este
solicitat sa marcheze un numar limitat dintre acestea (de regula de ordinul
zecilor) n funct ie de relevant a lor. Utilizatorul va marca datele ca ind rele-
vante - datele corespund perfect cererii de cautare sau nerelevante - datele nu
corespund. Pe baza acestor informat ii, sistemul de cautare calculeaza o noua
reprezentare a datelor cautate si returneaza o ranare a rezultatelor init iale.
Cu alte cuvinte, acest proces mbunatat este raspunsul sistemului folosind
informat ia de la utilizator pe post de realitate (sau ground truth
9
). Mai
multe informat ii sunt prezentate n Sect iunea 6.

In acest punct al procesului de indexare avem la dispozit ie un lant complet


de cautare ce porneste de la denirea cererii de cautare si se nalizeaza cu
interact ia cu utilizatorul relativ la rezultatele obt inute. Problema care apare
n acest punct este evaluarea performant ei sistemului. Cum putem evalua
performat ele unui sistem de indexare? Faptul ca acesta furnizeaza rezultate
bune pentru o serie de cereri de cautare (vezi exemplul din Figura 6.1) i
garanteaza performant a?

In realitate, performant ele sistemului variazan mod evident de la o cerere


de c autare la alta (este posibil sa avem date care sunt mai usor de localizat
datorita cont inutului acestora). Avem nevoie de o modalitate generala care
9
termenul de ground truth si are originea n domeniul cartograei si implica procesul
de colectare de informat ii despre un anumit fenomen, prin observarea practica pe teren a
acestuia. Datele obt inute constituie realitatea de teren folosita pentru calibrarea, valida-
rea si interpretarea observat iilor sau a masuratorilor de la distant a a fenomenului n cauza
sau a altor fenomene similare.

In contextul indexarii, ground truth reprezinta datele
pentru care se cunoaste cont inutul acestora, de exemplu faptul ca o imagine reprezinta un
anumit obiect sau ca o secvent a video este de un anumit gen.
CAPITOLUL 2. MECANISMUL DE INDEXARE DUP

A CONT INUT 17
sa evalueze performant a sistemului, global, n orice situat ie. Acest lucru este
realizat de regul a testand raspunsul acestuia la cautarea ecarui document
din baza de date considerata. Practic, ecare document devine cerere de
cautare.
Evaluarea performant ei rezultatelor este mai departe realizata e subiec-
tiv, de exemplu pe baza opiniei utilizatorilor, e obiectiv folosind masuri nu-
merice de performant a (exemplu numarul mediu de rezultate corecte, numarul
mediu de rezultate eronate si asa mai departe). O trecere n revista a
abordarilor cel mai frecvent folosite n literatura de specialitate este pre-
zentata n Sect iunea 8.
CAPITOLUL 3
Descrierea cont inutului multimodal
Dup a cum am ment ionat n sect iunile anterioare, procesul de adnotare al
cont inutului datelor consta n crearea atributelor sau a descriptorilor de
cont inut ce constituie baza sistemului de indexare. Practic cautarea datelor
se realizeaza prin compararea valorilor acestor descriptori pentru cererea de
cautare (query) cu descriptorii informat iilor existente n baza de date.

In acesta sect iune vom face o trecere n revista a tehnicilor existente si


a surselor de informat ie folosite n cazul descrierii cont inutului multimedia
urm and ca acestea sa e detaliaten sect iunile urmatoare.

In principal putem
identica trei surse majore de informat ie, si anume (vezi Figura 3.1):
informat ia vizuala: acesta se refera la datele ce sunt percepute vizual,
ca de exemplu culoare, forma, textura, miscare, precum si derivate din
acestea;
informat ia audio: se refera la datele ce sunt percepute sub forma de
semnale sonore, ca de exemplu voce, vorbire, muzica, sunete ambientale
sau zgomot;
informat ia textuala: se refera la datele reprezentate sub forma de
text (caractere) ce pot provenii din textul atasat datelor (de exemplu
textul ce nconjoara un obiect multimedia pe o pagina de web), textul
obt inut prin recunoasterea caracterelor ce apar ncrustate n imagine
(exemplu subtitrari), sau textul obt inut prin recunoasterea vorbirii din
informat ia audio.
19
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 20
culoare
textur
forme
trsturi
micare
structur temporal
vorbire
muzic
sunete
text
imagine
video
audio
text
Figura 3.1: Surse de informat ie multimedia (sursa imagine platform a You-
Tube, http://www.youtube.com).
3.1 Informat ia vizuala
Informat ia de culoare reprezinta una dintre sursele de informat ie cel mai
frecvent folosite n cazul descrierii cont inutului imaginilor. Acest lucru se
datoreaza n principal faptului ca nsusi sistemul vizual uman este bazat
pe prelucrarea informat iei de culoare (unde luminoase de diverse frecvent e).
Cont inutul de culoare este analizat pe baza reprezentarii acestuia folosind un
anumit model de reprezentare a culorilor
1
sau spat iu de culoare.
Spat iile de culoare folosite variaza de la cele clasice, precum sistemul RGB
(Red - Rosu, Green - Verde, Blue - Albastru), sisteme ce separa componenta
de intensitate de componentele cromatice, precum YCbCr (Y - luminozitate,
Cb, Cr - diferent e cromatice), pana la sisteme perceptuale n care culorile
sunt structurate n asa fel ncat sa reecte modul de percept ie vizuala umana
(culorile similare perceptual sunt alaturate n timp ce culorile opuse se gasesc
separate), precum sistemul HSV (Hue - nuant a, Saturation - saturat ie, Value
- m asura a intensitat ii), L*a*b* (L - luminozitate, a,b - diferent e croma-
tice) n care distant a perceptuala dintre culori tinde sa e proport ionala cu
distant a matematica, sau HMMD (Hue - nuant a, Max - masur a a gradului de
1
un model de reprezentare a culorilor reprezinta un model matematic abstract ce descrie
o culoare ca o combinat ie de numere, de regula 3 sau 4 valori, ce corespund unor compo-
nente de culori primare (culorile primare sunt culori ce nu pot obt inute din combinat ia
altor culori).
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 21
ntunecare sau shade, Min - masura a gradului de luminare sau tint, D
- m asura a tonalitat ii sau tone) sistem ce ofera o serie de avantaje n con-
textul indexarii dupa cont inut precum discretizarea mai ecienta a culorilor.
Un studiu detaliat al spat iilor de culoare este prezentat n [Tremeau 04].
O etapa premergatoare descrierii cont inutului de culoare consta n redu-
cerea paletei de culoare
2
[Orchard 91]. Sa luam exemplul spat iului RGB n
care ecare componenta de culoare este reprezentata pe 8 bit i ceea ce conduce
la un numar total de 16.777.216 de culori posibile.

In practica gestionarea
unui numar semnicativ de culori este atat inecienta deoarece ochiul uman
nu este sensibil la micile variat ii de culoare, cat si nerentabila din punct de
vedere computat ional. Paleta de culoare este redusa la un numar semicativ
mai mic, de ordinul sutelor (exemplu de palete xe: 256 de culori pentru
paleta Windows pe 8 bit i
3
; sau 216 culori pentru paleta Webmaster
4
) fo-
losind tehnici de cuantizare a culorilor. De asemenea, analiza cont inutului
de culoare se poate realiza n urma segmentarii imaginii n obiecte, proces
de izolare a regiunilor din imagine ce corespund elementelor constituente ale
scenei.

In acest fel descrierea culorilor este realizata la nivel de obiect si nu
global la nivel de imagine.
Descrierea cont inutului de culoare se realizeaza de regula folosind descrip-
tori de nivel semnatic inferior precum histograme de culoare calculate n di-
verse spat ii de culoare, histograme ponderate, culori predominante, variant a
de culoare, parametri de intesitate, descrierea repartit iei spat iala a culorilor,
cat si descriptori semantici precum prezent a culorii pielii (skin detection)
ce indica prezent a umanan scena sau identicarea denumirii culorilor (asoci-
erea de nume culorilor ofera informat ii asupra percept iei acestoran imagine).
Un studiu detaliat este prezentat n [Smeulders 00].
Un exemplu de descriere a cont inutului de culoare este prezentat n Fi-
gura 3.2 unde sunt ilustrate histogramele de culoare pentru imagini de sport
si respectiv animat ie (n ecare caz sunt ilustrate cateva imagini reprezen-
tative). Histograma de culoare este calculata folosind metoda propusa n
[Ionescu 11] culorile ind proiectate la paleta Webmaster de 216 culori. Se
poate observa faptul ca decriptorul de culoare astfel creat ilustreaza particu-
laritat ile ecarui tip de cont inut, imaginile de sport au o tenta predominant
verde n timp ce imaginile de animat ie sunt predominant galbene-portocaliu
conform cont inutului acestora.
2
paleta de culoare a unei imagini reprezinta mult imea tuturor culorilor prezente n
aceasta imagine. Aceasta reprezinta o sub-mult ime a spat iului de culoare n care este
reprezentata imaginea.
3
http://en.wikipedia.org/wiki/8-bit_color
4
http://www.visibone.com/colorlab
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 22
sport
animaie
Figura 3.2: Exemplu de descriere a culorilor folosind histograme de culoare
n cazul imaginilor de fotbal si respectiv de animat ie (pe axa orizontala sunt
reprezentate culorilen timp ce valorile de pe axa verticala sunt proport ionale
cu procentul de aparit ie al acestora n imagini) [Ionescu 11].
Informat ia relativa la forme se refera la caracterizarea proprietat ilor
obiectelor prezente n scena din perspectiva proprietat ilor geometrice ale
acestora, ind specica imaginilor. Analiza formelor presupune detect ia n
prealabil a obiectelor din scena ce este realizata folosind tehnici de segmen-
tare bazate pe contur sau pe regiuni de pixeli [Jain 89]. Succesul adnotarii
este astfel direct condit ionat de calitatea segmentarii imaginii.
Problema descrierii formelor nu este una simpla n principal datorita fap-
tului ca imaginea nu este altceva decat o proiect ie bidimensionala a lumii
3D, ceea ce nseamna ca una dintre dimensiunile obiectelor este pierduta.
Astfel, formele extrase din imagine vor reprezenta numai part ial informat ia
real a din scena. Mai mult, imaginea este perturbata de zgomot
5
si defecte
de achizit ie ceea ce cresc dicultatea obt inerii unei reprezent ari robuste.
Un descriptor de forma trebuie sa e ecient n sensul n care acesta tre-
buie sa furnizeze sucienta putere discriminatorie pentru a identica obiectele
similare perceptual n contextul n care acestea pot reprezentate n con-
texte diferite (de exemplu scene diferite, momente temporale diferite), din
diverse unghiuri, distorsionat, part ial sau suprapuse peste alte obiecte.
Acest lucru presupune atat o invariant a la zgomot, cat si la rotat ii,
translat ii, modicari de scala sau n general la orice tip de transformare
5
zgomotul n imagine se refera la acea informat ie perturbatoare ce altereaza informat ia
util a.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 23
an a
6
. Problema ocluziei obiectelor poate rezolvata prin integrarea de
informat ii suplimentare, precum o evolut ie temporala a imaginilor sau informat ie
de adancime (informat ie 3D).
(a) (b) (c) (d)
Figura 3.3: Exemplu de descriere a formelor: (a) reprezentarea centrului
de greutate pe baza esantionarii uniforme a conturului, (b) determinarea
parametrilor de elongat ie n funct ie de rata de aspect a formei (W/L), (c)
determinarea raportului de circularitate (arie obiect raportat la aria cercu-
lui de acelasi perimetru), (d) convexitate (cea mai mica regiune convexa ce
include obiectul). Sursa imagini [Mingqiang 08].
Descriptorii de forma sunt calculat i e folosind doar informat ia de con-
tur exterior a obiectelor sau informat ia de contur n relat ie cu informat ia
din interiorul obiectului (regiunea plina a obiectului). Abordarile existente
variaza de la calculul unor parametri simpli precum suprafat a, orientarea
axelor principale ale obiectului, convexitate, curbura, lungime, la parame-
tri mai complexi precum momente statistice invariante, parametri spectrali
(Fourier sau wavelet), reprezentarea sub forma de coduri (descompunerea
conturului n secvent e de segmente de dimensiune unitate si codarea aces-
tora), descompunerea n poligoane, reprezentari de tip scale-space (contu-
rul este caracterizat la mai multe niveluri de scala), reprezentare cu matrice
de forme, si asa mai departe [Mingqiang 08]. Un studiu detaliat este prezen-
tat n [Smeulders 00]. O serie de exemple sunt prezentate n Figura 3.3.
Informat ia de textura. Conceptul de textura este legat de caracteriza-
6
o transformare ana (cuvantul anis n Latina nseamna conectat cu) reprezinta
o transformare geometrica ce are proprietatea de a pastra coliniaritatea punctelor precum
si a rapoartelor de distant a dintre punctele ce se gasesc pe o aceeasi dreapta (de exemplu,
punctul de mijloc al unei drepte n urma transformarii si va pastra proprietatea). O
transformare ana nu garanteaza totusi conservarea unghiurilor sau a lungimilor, dar are
proprietatea de a pastra liniile paralele.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 24
rea proprietat ilor materialelor prezente n imagini si presupune atat analiza
informat iei de culoare cat si de contur. O textura este denita ca ind o
regiune din imagine ce prezinta caracteristici omogene, precum un motiv de
baz a ce se repeta n domeniul spat ial sau frecvent ial.
Un exemplu este ilustrat n Figura 3.4. Tehnicile de descriere a texturilor
presupun cuanticarea acestor proprietat i pentru a caracteriza o serie de atri-
bute specice, precum asperitate, uniformitate, variabilitate, direct ionalitate,
regularitate, ca o funct ie de variat ia spat iala a intensitat ii pixelilor din ima-
gine (de regul a exprimata ca niveluri de gri). Metodele existente pot cla-
sicate n abordari statistice, geometrice, pe baza de modele si pe baza de
ltre [Tuceryan 93].
Figura 3.4: Exemplu de texturi (de la stanga la dreapta si de sus n jos): pe-
rete de caramida, parchet lemn, ciment, pavaj piatra, zid de piatra, structura
osoasa, pavaj de piatra radial si textura articiala (surs a imagini Wikipedia).
Una dintre cele mai utilizate abordari o constituie metodele statistice.
Distribut ia spat ial a a intensitat ii pixelilor este caracterizata statistic, ca de
exemplu prin calcularea probabilitat ii de co-ocurent a a unei anumite inten-
sitat i n diverse direct ii si distant e fat a de un punct de referint a. Statisticile
pot calculate pentru valorile unui singur pixel (statistici de ordinul ntai)
sau pentru perechi sau regiuni de pixeli (statistici de ordin superior). Astfel
de exemple sunt parametrii extrasi din matricele de co-ocurent a (de exemplu:
energie, contrast, corelat ie), parametrii de autocorelat ie sau histogramele de
contur.
Abordarile geometrice analizeaza textura din perspectiva proprietat ilor
geometrice ale primitivelor acesteia (elementele texturii) precum arie, forma,
lungime si a modului de distribut ie al acestora ntr-o anumita ret ea (sau
grid). De exemplu, imaginea unui zid de caramida poate descrisa pe
baza unei singure caramizi (primitiva texturii n acest caz) si prin denirea
ret elei de plasare a acesteia n spat iu.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 25
O alta categorie de abordari sunt metodele bazate pe modele. Texturile
sunt sintetizate pe baza unui model al carui parametrii descriu proprietat ile
esent iale ale acesteia. De exemplu, elementele texturii pot modelate ca
puncte ntunecate sau luminoase, ca tranzit ii verticale sau orizontale, ca linii.
Exemple de astfel de modele sunt lant urile Markov
7
si modelarea fractala
8
.
Metodele bazate pe ltre sunt specice domeniului prelucrarii de semnal.
Acestea se bazeaza practic pe ltrarea imaginii atat n domeniul spat ial cat
si frecvent ial. Dintre ltrele cel mai des utilizate sunt operatorii de derivare
(de exemplu Laplacian, Roberts) sau ltrele Gabor
9
. Un studiu detaliat al
literaturii este prezentat n [Smeulders 00].
Informat ia de miscare. Conceptul de miscare este denit n contextul
secvent elor de imagini, numite si imagini n miscare. O secvent a de ima-
gini presupune o evolut ie temporala a cont inutului unei imagini (informat ie
spat io-temporal a; n cazul n care se adauga si informat ie audio obt inem ceea
ce numim video - informat ie audio-vizuala). Daca consideram standardul de
codare video PAL - Phase Alternating Line (unul dintre cele mai raspandite
n Europa) o secunda dintr-o secvent a video corespunde la o succesiune de nu
mai put in de 25 de imagini. Caracterizarea informat iei de miscare presupune
astfel caracterizarea schimbarilor (de regula spat iale) ce au loc de la o ima-
gine la alta. Aceste schimbari pot analizate local, doar pentru o anumita
regiune din imagine (de exemplu miscarea unui obiect n scena), sau global
pentru ntreaga imagine (de exemplu miscarea camerei video).
Pentru a putea descriere cont inutul de miscare este nevoie mai ntai
de realizarea unei etape intermediare ce presupune identicarea acestuia n
secvent a. O abordare simplicata presupune detect ia miscarii [Bovik 09].
Aceasta are ce are ca scop localizarea acelor regiuni de pixeli din imagine
n care survin schimbari n timp, de regula de la o imagine la alta. Limi-
tarea acestei abordari consta n faptul ca nu se t ine cont de natura acestor
schimbari, acestea putand surveni, n special n cazul secvent elor editate n
studio, independent de miscare, de exemplu prin uctuat ii de intensitate,
7
un lant Markov (denumit dupa Andrey Markov) reprezinta un sistem matematic ca-
racterizat de tranzit ii succesive ntre un numar nit, masurabil, de stari posibile. Acesta
este un proces aleator fara memorie n sensul n care tranzit ia sistemului la o alta stare
depinde doar de starea curenta si nu depinde de starile anterioare.
8
un fractal (termen creat de Benot Mandelbrot, din Latina fractus - neregulat) re-
prezinta o suprafat a de forma neregulata sau fragmentata creata pe baza unor reguli deter-
ministe sau stohastice ce implica un proces de omotetie interna (transformare geometrica
n care punctele corespondente sunt coliniare cu un punct x (centru), distant a fat a de el
crescand sau reducandu-se n raport constant - sursa Marele Dict ionar de Neologisme).
9
un ltru Gabor (denumit astfel dupa Dennis Gabor) reprezinta un ltru liniar ce are
proprietatea de a avea caracteristici similare ltrelor din sistemului vizual uman.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 26
efecte speciale.
Exemple de astfel de metode includ detect ia cu prag x sau adaptiv (o
regiune este declarata de miscare daca diferent ele dintre pixeli pentru doua
imagini succesive sunt mai mari decat un anumit prag), tehnici de estimare a
fundalului
10
precum media alunecatoare, aproximare ltru median, metode
statistice neparametrice, metode recursive si asa mai departe. Un exemplu
de detect ie este ilustrat n Figura 3.5.(b).
(a) (c) (b)
Figura 3.5: Exemple de determinare a cont inutului de miscare pentru o
secvent a de supraveghere video: (a) imagine din secvent a originala (obiectele
care se deplaseaza sunt ncercuite cu rosu), (b) detect ie de miscare folosind
aproximarea ltrului median (imaginea reprezinta regiunile care se schimba),
(c) campul vectorial de miscare obt inut cu o estimare pe blocuri de pixeli (vec-
torii de miscare sunt ilustrat i cu galben, punctele semnica absent a miscarii).
O a doua abordare o constituie tehnicile de estimare a miscarii [Bovik 09].
Acestea, spre deosebire de detect ia miscarii, presupun estimarea deplasarilor
pixelilor sau a regiunilor de pixeli de la o imagine la alta, estimare ce este
cuanticata prin asocierea unui vector de miscare. Acesta indica atat direct ia
deplasarii pixelilor (orientare) cat si deplasarea spat iala (amplitudine).

In
urma estimari, imaginea este practic reprezentata de un camp de astfel de
vectori de miscare indicand modul de deplasare al ecarui pixel sau bloc de
pixeli. Un exemplu este prezentat n Figura 3.5.(c).
Tehnicile de estimare a miscarii variaza de la abordari bazate pe metode
diferent iale (bazate pe estimarea uxului optic), parametrice, stohastice sau
bazate pe blocuri (block-based) acestea din urma regasindu-se n toate
standardele de codare video precum cele dezvoltate de Moving Picture Ex-
10
detect ia fundalului sau background presupune localizarea acelor pixeli din imagine
ce raman aproximativ constant i de la o imagine la alta.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 27
perts Group - MPEG
11
(informat ia relativa la deplasarea regiunilor permite
reconstruct ia imaginilor, ceea ce ofera un factor de compresie semnicativ).
Odata identicat cont inutul de miscare, descriptorii de cont inut cuanti-
c a o serie de proprietat i ale acestuia. Ca exemple de descriptori putem enu-
mera determinarea traiectoriei obiectelor din scena, identicarea tipului de
miscare a camerei video (zoom - apropiere/departare, rotat ie, translat ie),
determinarea activitat ii de miscare folosind cuantizarea variant ei amplitu-
dinii vectorilor de miscare, determinarea distribut iei spat iale si temporale
a activitat ii de miscare, construct ia de imagini MHI de istorie a miscarii
(Motion History Images) formate prin acumularea informat iei de miscare a
ec arui pixel ntr-o anumita fereastra temporala, determinarea de histograme
de intensitate si asa mai departe. De ment ionat faptul ca determinarea des-
criptorilor de miscare depinde de succesul si calitatea detect iei/estimarii de
miscare folosita.
Informat ia de structura temporala. Decriptorii de cont inut relativi la
structura temporala se adreseaza secvent elor de imagini si n special sec-
vent elor editate n studio, precum lme, reportaje, sport si asa mai departe
(n general materiale destinate distribut iei TV).
Descrierea structurii temporale video implica segmentarea temporala a
acesteia prin descompunerea secvent ei n unitat i structurale de baza numite
si plane video [Lienhart 01]. Un plan video este practic o secvent a de ima-
gini ntregistrata ntre pornirea si oprirea camerei video av and proprietat ile
de unitate temporala si de loc (vezi Figura 3.6). Pentru a obt ine secvent a
nal a, planele video sunt concatenate folosind diverse tranzit ii video. O
tranzit ie video nu este altceva decat un efect vizual ce poate presupune e o
tranzit ie abrupta de tip cut (concatenarea directa a doua plane succesive),
e tranzit ii graduale precum fades (aparit ia sau disparit ia imaginii dintr-o
imagine constanta, de regula neagra), dissolves (transformarea graduala
a unei imaginii n alta), mattes, wipes si asa mai departe [Bimbo 99].
Cateva exemple sunt ilustrate n Figura 3.6.
Practic segmentarea temporala implica localizarea n secvent a a acestor
tranzit ii. Ca frecvent a de aparit ie, tranzit iile de tip cut sunt cele mai
frecvente, de regul a 30 de minute video pot cont ine pana la 300 de astfel de
tranzit ii n timp ce frecvent a tranzit iilor graduale este cu cel put in un ordin
11
MPEG sau Moving Picture Experts Group, reprezinta o organizat ie internat ionala
ce se ocupa cu dezvoltarea normelor pentru compresia, decompresia si analiza si codarea
video. Aceasta este responsabil a pentru dezvoltarea standardelor clasice de codare, precum
MPEG-1 folosit pentru formatul VideoCD, MPEG-2 folosit pentru stocarea pe DVD,
MPEG-4 folosit la BD (Blu-Ray Disc), MPEG-7 standard de descriere a cont inutului
video pentru indexare multimedia sau MPEG-21 ce deneste interoperabilitatea tuturor
tipurilor de cont inut multimedia.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 28
imaginea
i+1
imaginea
i+2
imaginea
i
imaginea
i+3
cut
imaginea
i
imaginea
i+10
... ...
imaginea
i+15
... ...
imaginea
i+20
... ...
timp
...
imagine
1
imagine
i
imagine
i+1
imagine
N
imagine
j
imagine
1
imagine
i
imagine
i+1
imagine
N
imagine
j
T
T
TT
T plan
1
plan
2
plan
i
plan
M
... ...
... ...
tranzi de
tip cut
ie
tranzi de tip
dissolves
ie
Figura 3.6: Structura temporala a unei secvent e video (T reprezinta o
tranzit ie video, N este numarul de imagini al secvent ei iar M numarul de
plane video).

In partea de jos a imaginii sunt ilustrate un exemplu de tranzit ie
de tip cut (imagini lm de animat ie Gazoon [CITIA 13]) si respectiv
dissolve (imagini lm de animat ie Coeur de Secours [CITIA 13]).
de marime mai redusa.
Metodele de detect ie a tranzit iilor video exploateaza n general detect ia
discontinuitat ii vizuale produse de acestea n uxul video folosind abordari
bazate pe analiza intensitat ii pixelilor (de exemplu o tranzit ie de tip cut
implica o diferent a semnicativa a distribut iei de culoare ce poate anali-
zat a folosind diferent a dintre histograme, o tranzit ie de tip fade implica o
variat ie gradual a a intensitat ii luminoase), analiza contururilor (de exemplu
o tranzit ie de tip dissolves presupune un raport semnicativ de puncte de
contur ce apar/dispar din imagine), analiza miscarii (de exemplu o tranzit ie
de tip cut produce o discontinuitate a vectorilor de miscare) sau analiza
informat iei n domeniul comprimat (precum analiza coecient ilor transfor-
matei cosinus discrete din uxul MPEG).
La un nivel de descriere superioara, segmentarea secvent ei poate implica
descompunerea acesteia n unitat i structurale de nivel semantic superior,
precum gruparea planelor video n scene (grupuri de plane video ce sunt
corelate din punct de vedere al cont inutului semantic si presupun unitate de
loc, de timp si de act iune), n episoade (grupuri de scene ce sunt similare din
punct de vedere al act iunii globale, ca de exemplu episoadele unei serii TV)
si asa mai departe.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 29
Interesul n segmentarea temporala este dublu. Pe de-o parte, acesta con-
stituie primul pas de analiza pentru marea parte a metodelor de analiza a
cont inutului video deoarece furnizeaza informat ii relative la structura seman-
tica a acestuia. De exemplu, avand la dispozit ie structura de plane sau de
scene video, analiza de cont inut se poate realizan interiorul acestora evitand
astfel prelucrarea imaginilor de tranzit ie cat si asigurand unitatea semantica
a cont inutului.
Extragerea unui descriptor pentru un segment ales aleator din secvent a
risc a sa amestece informat ii distincte. De exemplu, daca consideram cazul
particular al unei secvent e de stiri si segmentul ales cont ine atat nregistrarea
prezentatorului cat si a unui reportaj extern, amestecarea informat iilor vizu-
ale ale celor doua subiecte complet diferite nu poate produce un descriptor
reprezentativ.
Pe de alta parte, structura temporala furnizeaza ea nsasi informat ii de
cont inut. Folosirea unui anumit tip de tranzit ii pentru a face leg atura ntre
planele video nu este aleatorie ci corespunde unor reguli cinematice de montaj
bine denite [Reynertson 70]. De exemplu, folosirea frecventa a tranzit iilor
de tip cut are ca efect cresterea dinamismului secvent ei, tranzit iile de tip
dissolve si fade sunt folosite frecvent pentru a schimba timpul sau lo-
cul act iunii, o secvent a de tip fade-out - fade-in introduce un moment de
pauza n derularea act iunii ca de exemplu pentru a trece la un alt capitol al
narat iunii.
Descriptorii ce caracterizeaza informat ia de structura temporala exploa-
teaz a n principal frecvent a de aparit ie a schimbarilor de plan video n sec-
vent a, e n mod direct prin masuri precum determinarea duratei medii a
planelor video, ratei medii de schimbare de plan raportata la unitatea tem-
poral a (de regul a denumita ritm vizual), raportului tranzit iilor graduale din
secvent a, extragerea de imagini cheie la nivelul ecarui plan si prelucrarea
acestora folosind descriptori clasici de imagine (vezi sect iunile anterioare);
e derivand informat ii relative la activitatea vizuala a secvent ei exploatand
conceptul de act iune (concept de regula asociat frecvent ei de tranzit ii de tip
cut, de exemplu o secvent a de act iune va avea o densitate ridicata de plane
video de scurta durata n timp ce o secvent a a unui documentar este foarte
probabil sa cont ina doar cateva plane video).
Trasaturi. Informat ia legata de ceea ce numim trasaturi (features) este
de fapt un caz particular de descriere a informat iei de contur n imagini si
este strans legata de not iunea de puncte de interes (interest points).
Un punct de inters n imagine reprezinta de regula o regiune de pixeli (de
dimensiuni reduse) a caror proprietat i o fac reprezentativ a pentruntelegerea
cont inutului structural al imaginii. Nu orice regiune de pixeli care cont ine
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 30
contururi este astfel un punct de interes.
De exemplu, daca consideram sistemul vizual uman, se stie faptul ca
ochiul este mai sensibil la percept ia punctelor de inexiune din imagini, pre-
cum unghiuri sau intersect ii, decat la informat iile redundante, continuue,
precum liniile drepte. Aceste informat ii sunt acelea ce tind sa e percepute
primele n imagine, ind denitorii, si apoi pe baza lor sa se realizeze o
aproximare a scenei.

In Figura 3.7.(a) am ilustrat un exemplun acest sens.



In imagine sunt re-
prezentate patru treimi de cercuri dispuse simetric. La o prima vedere ochiul
uman tinde sa perceapa mai ntai cele patru colt uri contrastate (puncte de
interes) si sa extrapoleze informat ia imaginand un dreptunghi alb suprapus
peste patru cercuri negre. Totusi n realitate, liniile ce denesc dreptunghiul
nu exista, ind doar o iluzie.
(a)
(b)
(c)
Figura 3.7: Exemplu de trasaturi: (a) exemplu de iluzie optica n care cele
patru treimi de cerc sunt percepute ca un dreptunghi suprapus peste pa-
tru cercuri negre (sursa http://webvision.med.utah.edu/book/), (b) si (c)
ilustreaza un exemplu de detector de colt uri, prima imagine ind imaginea
init ial a iar n a doua imagine punctele rosii marcheaza trasaturile detectate
(surs a imagini Wikipedia).

In contextul imaginilor, aceste trasaturi pot formalizate ca ind acele


puncte din imagine ce ntrunesc urmatoarele proprietat i: au o denit ie mate-
matica bine precizata, au o pozit ie bine denita n imagine, informat ia locala
din jurul punctului de interes este bogata informat ional (cu alte cuvinte sunt
denite de context), si cea mai importanta proprietate este aceea ca acestea
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 31
trebuie sa e stabile la perturbat ii locale si globale precum deformari da-
torate transformarilor de perspectiva, schimbarea unghiului de vizualizare,
schimbari de scal a, rotat ii, translat ii cat si variat ii de iluminare (de exem-
plu: colt ul unui dreptughi isi va pastra proprietatea indiferent daca este
ntunecat, rotit, micsorat sau schimbata perspectiva). Datorita acestor pro-
priet at i, punctele de interes sunt de departe cea mai ecienta modalitate de
reprezentare a cont inului imaginilor n contextul indexarii dup a cont inut.
Tehnicile de detect ie a punctelor de interes/trasaturi au pornit init ial de
la ideea detectarii colt urilor n imagini, un astfel de detector ind Harris
corner detector ce foloseste ipoteza conform careia gradient ii (diferent ele)
pe cele doua direct ii oX si respectiv oY trebuie sa e ambele semnicative
pentru un colt . Un exemplu de astfel de detect ie este prezentat n Figura
3.7.(c).
Alte metode mai elaborate sunt detectorul Harris Laplace (cunoscut ca
detectorul Harris multi-scala) ce adauga localizarea colt urilor folosind repre-
zent arii ale imagini pe diverse niveluri de scala, detectorul Hessian Laplace,
abordari ce folosesc reprezent ari de tip scale-space (similar informat iei de
contur) precum Laplacian of Gaussian (LoG), Dierence of Gaussian (DoG)
sau Determinant of Hessian (DoH), detectorul Maximally Stable Extremum
Regions (MSER) ce selecteaza anumite regiuni conexe din imagine daca aces-
tea sunt stabilen urma ltarii repetate cu diverse praguri (thresholding
12
),
p ana la binecunoscut ii detectori Scale Invariant Feature Transform - SIFT (ce
se bazeaza pe localizarea maximelor si minimelor obt inute n urma aplicarii
unor funct ii de diferent e de Gaussiene
13
) si respectiv Speeded Up Robust
Features - SURF (ce foloseste o descompunere wavelet de tip Haar si imagini
integrale). O trecere n revista a diferitelor tehnici de analiza a trasaturilor
n imagini poate consultata n [Gauglitz 11].
Avand n vedere ecient a descriptorilor de trasaturi n reprezentarea
structurii imagini, n special datorata nvariant ei acestora la o gama larga de
transformari, cercetarile actuale n domeniu vizeaza extensia acestora pentru
a putea exploata cont inutul temporal specic secvent elor de imagini.
Dintre descriptorii de trasaturi spat io-temporali putem ment iona Har-
12
thresholding n prelucrarea de imagini reprezinta operat ia prin care valorile imaginii
sunt transformate prin compararea cu un simplu prag de regula obt inand o imagine binara.
Daca valoarea din imagine este superioara pragului aceasta este schimbata intr-o constanta
(de regula 1) si n caz contrar ntr-o alta constanta (de regula 0).
13
diferent a de Gaussiene consta n realizarea diferent ei dintre doua variante ncet osate
ale imaginii init iale, de regula prima imagine ind mai ncet osata (blurred).

Incet osarea
unei imagini presupune nlaturarea frecvent elor nalte (de exemplu zone ne-uniforme pre-
cum contururi). Prin realizarea diferent ei ntre doua astfel de imagini se obt ine un ltru
trece banda care conserva doar o gama de frecvent e spat iale din imaginea initiala si astfel
doar anumite informat ii din imagine.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 32
ris3D corner detector (extensie a detectorului de colt uri pentru a include
pe l anga gradient ii spat iali si gradient i temporali), detectorul Cuboid ce fo-
loseste ltre Gabor temporale (vezi explicat ia de la informat ia de textura)
pentru a detecta acele trasaturi cu proprietat i spat iale particulare si ce pre-
supun o miscare complexa, detectorul Hessian 3D ce se bazeaza pe estimarea
determinantului matricei Hessiene
14
n care derivatele part iale sunt calculate
si temporal, tehnici de esantionare densa precum extragerea de regiuni 3D din
secvent a (de exemplu o port iune de imagine pentru mai multe momente de
timp) si descrierea acestora adaptand descriptori de tras aturi precum SURF
3D (extensie a descriptorului SURF). Un studiu detaliat al descriptorilor
spat io-temporali este prezentat n [Stottinger 10].
3.2 Informat ia audio
Informat ia audio reprezinta o alta sursa importanta de informat ii relative la
cont inutul datelor multimedia. Aceasta se refera la caracterizarea sunetului,
e n contextul video unde acesta este sincronizat informat iei vizuale, e in-
dependent (de exemplu siere audio de muzica, nregistrari, etc.).

In general
sunt vizate analiza si identicarea vorbirii, a zgomotului si a efectelor sonore
sau analiza cont inutului muzical.
Prelucrarea semnalului audio se realizeaza principial ntr-un mod simi-
lar prelucrarii secvent elor de imagini ind de asemenea o reprezentare tem-
poral a a datelor. Un semnal audio digital (discret) nu este altceva decat o
secvent a de esantioane (valori de amplitudine ale undelor sonore) nregistrate
n timp (vezi Figura 3.8.(a)). Acestea sunt prelucrate la nivel de cadre audio,
un cadru audio ind o secvent a temporala ce cont ine un anumit numar de
esantioane (un exemplu de valoare uzuala este folosirea a 1024 de esantioane).
Important este faptul ca aceste cadre nu sunt ntotdeauna disjuncte, de re-
gul a ind suprapuse cu pana la 50% din durata. Acest lucru asigura faptul
ca toate part ile semnalului audio vor bine reprezentate la nivel de cadre.
Metodele de descriere a cont inutului audio se mpart n doua catego-
rii. Metode ce analizeaza informat ia audio direct n domeniul temporal la
nivel de cadru sau folosind o reprezentare statistica a distribut iei acestora n
documentul audio (descriptorii extrasi la nivel de cadru sunt agregat i pen-
tru ntreaga secvent a prin statistici de medie, variant a, median si asa mai
departe). Dintre descriptorii cei mai frecvent folosit i n acest caz putem
14
matricea Hessiana (dupa numele matematicianului Ludwig Otto Hesse) reprezinta
matricea patratica a derivatelor part iale de ordin doi ale unei anumite funct ii de mai
multe variabile. Denita n acest fel, aceasta are proprietatea de a descrie curbura locala
a funct iei.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 33
timp
cadru 1
amplitudine
cadru n
... ...
(a)
frecven
timp
...
( ) b
LFP
(c)
d
o
c
u
m
e
n
t
a
r
m
u
z
i
c

Figura 3.8: Exemplu de prelucrare a semnalului audio: (a) analiza n do-


meniul temporal, (b) analiza pe blocuri de cadre spectrale n domeniul
frecvent ial [Seyerlehner 10], (c) exemplu de descriptor Logarithmic Fluctua-
tion Pattern (LFP) [Ionescu 12b] n cazul unui documentar si videoclip mu-
zical (la acesta din urma se observa aspectul ritmic prezent prin maximele
LFP - reprezentate cu rosu si galben).
ment iona: Zero-Crossing Rate (ZCR) ce reprezinta numarul de treceri prin
zero ale semnalului raportat pe unitatea de timp, energia semnalului (Root
Mean Square of Signal Energy sau RMS), rata de absent a a sunetului sau
coecient ii de autocorelat ie ai semnalului [Mathieu 10].
Totusi marea parte a metodelor analizeaza sunetul n domeniul frecvent ial.
Pentru aceasta, ecare cadru audio este reprezentat n domeniul transfor-
matei Fourier iar informat ia obt inuta este prelucrata ntr-o reprezentare
frecvent a (data de reprezentarea Fourier a cadrelor audio) - timp (data de
succesiunea cadrelor audio n timp) ca de exemplu folosind spectograma de
aplitudine - reprezentarea temporala a amplitudinii transformatei Fourier a
ec arui cadru audio.
Dintre abordarile folosite putem ment iona distribut ia energiei semnalului,
centroizii frecvent elor, largimea de banda, pitch, loudness sau reprezen-
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 34
tarea coecient ilor cepstrali Mel-Frequency Cepstral Coecients (MFCC).
La r andul ei, reprezentarea semnalului frecvent a-timp poate prelucrata pe
blocuri de cadre spectrale (valori uzuale sunt de ordinul a 10 pana la 512
cadre per bloc) ceea ce are avantajul de a integra pe langa informat ia de
frecvent a si informat ie temporala locala, ca de exemplu aspecte ritmice ale
semnalului (vezi Figura 3.8.(b)).
Dintre descriptorii de acest gen putem ment iona Spectral Pattern (infor-
mat ie relativa la timbru sonor), Logarithmic Fluctuation Pattern (informat ie
relativa la aspectele ritmice ale semnalului), Correlation Pattern (informat ie
relativa la schimbarile de intensitate) sau Spectral Contrast Pattern (infor-
mat ie relativa la tonalitate) [Seyerlehner 10].
Un exemplu este prezentat n Figura 3.8.(c) n care am ilustrat descrip-
torul Logarithmic Fluctuation Pattern (LFP) n cazul coloanei sonore a unui
documentar si respectiv a unui videoclip muzical. O caracteristic a specica
muzicii este prezent a de batai ritmice (beats) ce sunt vizibile sub forma
de maxime ale LFP (vezi zone colorate cu rosu si galben).

In contrast, n
cazul documentarului, structura LFP este plata ceea ce indica ca nu exista
elemente repetitive percutante n uxul audio.
O alta direct ie de studiu importanta ce vizeaza analiza sunetului o re-
prezinta tehnicile de recunoastere automata a vorbirii (Automatic Speech
Recognition sau ASR [Lamel 08]). Acestea au ca obiectiv transformarea vor-
birii din semnal audio n text ce poate prelucrat mai departe folosind teh-
nici specice. Folosirea textului obt inut n urma ASR furnizeaza informat ii
pret ioase relative la cont inutul datelor. Avantajul descriptorilor textuali pre-
cum si limitarile ASR sunt discutate n sect iunea urmatoare.
Raportat la descriptorii vizuali, descriptorii audio tind sa furnizeze o pu-
tere discriminatorie mai buna n marea parte a aplicat iilor relative indexarii
dup a cont inut, precum identicarea genului video sau detect ia anumitor con-
cepte video [Ionescu 12b] [Over 12].
3.3 Informat ia textuala
De departe cea mai ecienta sursa de informat ii pentru indexare o constituie
textul. Aproape n totalitate, sistemele existente de cautare multimedia se
bazeaza pe descriptori textuali. Avantajul reprezentarii textuale este acela ca
ofera un nivel de descriere semantica a cont inutului, foarte apropiat de nivelul
de percept ie uman. Mai mult, exprimarea textuala este la ndem ana oricarui
utilizator, ceea ce rezolva problematica formularii cererilor de c autare.
Totusi dezavantajul principal al informat iei textuale este dat de posibli-
tatea limitata de automatizare a procesului de generare, aceasta necesitand
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 35
practic sa e furnizata de utilizator. De exemplu, la ncarcarea on-line a
unei imagini, de regula utilizatorul va specica o scurta descriere textuala
a cont inutului acesteia, ca de exemplu Turnul din Pisa. Aceasta va fo-
losita ulterior drept descriptor de cont inut pentru indexare. Totusi aceasta
informat ie este incompleta si nu descrie decat global cont inutul, nu exista
informat ii relative la persoanele din scena, la momentul zilei sau relativ la
prezent a altor obiecte. Acest lucru limiteaza aceasta imagine s a nu poata
g asit a decat n cazul cautarii unor imagini cu turnul din Pisa, si nu pentru
alte informat ii din scena.

In cazul datelor multimedia, informat ia textuala poate obt inuta din


mai multe surse. Conform celor ment ionate anterior, o prima sursa de des-
criptori textuali este nsusi utilizatorul, aceste date ind generate manual.

In
acest caz, informat ia textuala este de regula reprezentata sub forma de mici
rezumate de cont inut referitoare la date (synopsis, de exemplu n cazul
unui lm acestea pot rezumatul narat iunii acestuia), etichete de cont inut
(user tags ce reprezinta de regula cateva cuvinte cheie ce descriu cont inutul
global), subtitrari n cazul lmelor, metadate
15
(ce furnizeaza o serie de
informat ii suplimentare de tipuri diferite, legaturi (link) catre alte surse
de informat ii, proprietat i ale datelor), informat ii referitoare la localizarea ge-
ograca a datelor precum coordonatele GPS
16
ale unei imagini (longitudine,
latitudine), comentarile utilizatorilor relativ la cont inutul datelor specice de
regul a ret elelor de socializare sau textul ce nconjoara elementul multimedia
respectiv pe o pagina web.
Cateva exemple de astfel de descrieri au fost prezentate n Figura 3.1 n
care am ilustrat o pagina tipica de pe platforma YouTube. Se pot observa
diferitele informatii textuale, de la descrieri, tag-uri pana la comentariile utili-
zatorilor asociate unei secvent e video. Toate aceste informat ii sunt informat ii
relative la cont inut.
O alta sursa de informat ie textuala o constituie textul cont inut chiar de
datele multimedia. Avantajul acestuia il constituie faptul ca poate extras
folosind metode automate. O prima sursa este informat ia vizual a, ca de
exemplu textul ncrustat n imagine, scrisul de mana, subtitr arile lmelor (n
15
metadatele sunt denite uzual ca ind date despre date, sau altfel spus, date care
descriu alte date, de orice fel si de orice tip. Cu alte cuvinte, metadatele ofera informat ii
suplimentare la o serie de date. De exemplu, o pagina web, pe langa textul propriu-zis
poate cont ine metadate ce specica limba n care este scrisa, modul de creare al paginii,
diferite surse adit ionale de informat ii si asa mai departe.
16
sistemul GPS - Global Positioning System reprezinta un sistem de pozit ionare ge-
ograca bazat pe satelit i ce furnizeaza informat ie de localizare si timp independent de
vreme si pentru oricare pozit ie de pe glob, atata timp cat exista posibilitatea de captare
a semnalului de la cel put in 3 satelit i GPS.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 36
cazul n care nu sunt disponibile separat), textul grac (de exemplu diverse
indicatoare precum denumirea unei strazi, numele unui obiect, numarul de
nmatriculare al unei masini, scorului n secvent ele sportive). Extragerea
acestuia presupune folosirea de tehnici de recunoastere automata a caracte-
relor sau OCR (Optical Character Recognition
17
).
O a doua sursa de text o constituie informat ia audio si n special vorbirea
(de exemplu narat iune, dialoguri, monologuri). Aceasta poate recunoscuta
si convertitan text folosind tehnicile de recunoastere automata a vorbirii sau
Automatic Speech Recognition (ASR) [Lamel 08]. Textul obt inut n acest fel
ofera informat ii pret ioase de cont inut, totusi tehnicile de ASR sunt limitate
pe de-o parte de diversitatea limbilor existente cat si de imposibilitatea de a
furniza o transcriere ecienta n condit ii de zgomot de fundal (cum este cazul
lmelor).
Odata obt inuta informat ia textuala aceasta poate folosit a direct ca des-
criptor de cont inut. Totusi n marea parte a cazurilor informat ia textuala
tinde sa e redundanta si de dimensiune semnicativa (de exemplu sute de
mii de cuvinte) necesitand o reprezentare mai ecienta. Dintre metodele
cel mai frecvent folosite putem enumera reprezentarea de tip Term Frequ-
encyInverse Document Frequency (TFIDF) [Knees 09] si Bag-of-Words (B-
o-W) [Wallach 06].
TFIDF este un model statistic ce se bazeaza pe determinarea gradului
de important a al unui termen pentru un anumit document dintr-un corpus
de date. Valoarea TF-IDF va creste proport ional cu numarul de aparit ii al
termenului n document (term frequency) dar n acelasi timp este compensata
de frecvent a de aparit ie a cuvantului n corpus (inverse document frequency)
ceea ce ajuta la vericarea a cat de comun sau rar este termenul pentru
toate documentele din corpus. Informat ia textuala poate astfel sintetizata
prin valorile TF-IDF pentru un set de termeni cheie prestabilit i n funct ie de
aplicat ie sau extrasi chiar din document.
Modelul B-o-W este un model similar ce t ine cont de frecvent a de aparit ie
a cuvintelor.

In acest model textul este reprezentat sub forma unei colect ii,
ne-ordonate, de cuvinte (bag of words), ignorand astfel orice reguli gra-
maticale. Pe baza acestei reprezentari se alcatuieste mai ntai un dict ionar
de cuvinte eliminand cuvintele care se repeta. Descriptorul texual pentru un
anumit document va consta astfel n reprezentarea sub forma de histograma a
numarului de aparit ii ale ecarui cuvant din dict ionar n documentul respec-
tiv. Documentele ce descriu date similare vor avea o frecvent a comparabila
17
recunoasterea automata a caracterelor reprezinta procesul mecanic sau electronic de
traducere a imaginilor ce cont in scris de mana, scris de masina sau text imprimat (de
regula rezultate n urma procesului de scanare) n text editabil de catre calculator.
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 37
a anumitor termeni.
3.4 Descriere semantica sau sintactica?

In general descriptorii de cont inut obt inut i n urma adnotarii cont inutului
datelor multimedia pot clasicat i n funct ie de nivelul semantic al infor-
mat iilor furnizate n trei categorii:
Descriptori sintactici (low-level), constau de regulan adnotarea datelor
cu descrieri numerice. Acest mod de descriere corespunde n general prime-
lor sisteme de indexare (cu toate acestea multe dintre metode sunt folosite
si n sistemele existente - vezi sect iunile anterioare). Adnotarea sintactica
este denita generic ca ind adnotarea ce se refera la relat iile dintre unitat ile
de nivel scazut constituente ale datelor multimedia si modul de constituire a
structurii acestora. Aceasta se poate realiza pe baza atributelor numerice,
de nivel semantic redus, ca de exemplu parametri statistici calculat i la nivel
de pixel sau regiuni de pixeli, proprietat i geometrice ale obiectelor, structura
temporal a a unei secvent e sau vectori de miscare. De regul a, descriptorii
obt inut i n urma procesului de adnotare sunt valori numerice ce descriu atri-
bute de tipul celor enumerate mai sus dar si relat iile sintactice ce pot exista
ntre acestea. Extrasi la acest nivel de percept ie, descriptorii sintactici sunt
dicil accesibili utilizatorului de rand. De exemplu, cautarea unei imagini n
funct ie de procentul de aparit ie al unei culori sau a unei secvent e de ima-
gini care sa cont ina 30% miscare de translat ie si 20% miscare de rotat ie, nu
constituie o descriere prea relevanta pentru utilizator.
Descriptori simbolici (mid-level), acestia corespund unui nivel de descri-
ere intermediar, ce se gasestentre cele doua extreme: numeric si semantic, ca
de exemplu denumirea culorilor dintr-o imagine, detectarea unei scene de dia-
log sau a prezent ei umane n scena, identicarea unui anumit tip de cont inut.
De regul a descriptorii de nivel semantic intermediar sunt determinat i, indi-
rect, pe baza descrierilor sintactice.
Descriptori semantici (high-level), n contrast cu adnotarea sintactica,
adnotarea semantica a cont inutului presupune o descriere perceptuala ce
tinde sa atinga un nivel similar cu nivelul de percept ie uman. Informat iile
numerice obt inute n urma analizei sintactice pot convertite n concepte
semantice precum conceptele lingvistice folosind informat ii a priori despre
cont inutul datelor, si/sau trecand printr-o etapa intermediara de descriere
simbolica. Un sistem semantic este denit generic ca ind orice sistem ce
implica o colect ie de simboluri (vocabularul sistemului), reguli ce permit con-
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 38
stituirea de propozit ii, reguli de desemnare si reguli de validare.

In cazul siste-
melor de indexare, termenul de semantic si conserva acest sens. Acesta se
traduce prin codarea interpretarii datelor pentru a servi unei aplicat ii speci-
ce [Smeulders 00]. Astfel, descrierea semantica implica existent a unui set de
simboluri si reguli ce permit interpretarea lingvistica a anumitor evenimente
sau proprietat i ale datelor multimedia.
Acest mod de descriere presupune dezvoltarea de tehnici capabile sa fur-
nizeze o nt elegere completa a cont inutului necesitand de cele mai multe ori
o abordare multimodala (imagine-sunet-text). De exemplu, daca ne limitam
n a folosi doar informat ia furnizata de o imagine, sa luam cazul unei imagini
ce surprinde un jucator de fotbal, singurele caracteristici ce reies din analiza
imaginii sunt zionomia acestuia si prezent a sa n scena. Pe de alta parte,
dac a dispunem de secvent a ce l surprinde pe jucator, putem determina daca
acesta va marca golul, modul n care acesta joaca, contextul nregistrarii,
cum ar meciul despre care este vorba si asa mai departe, informat ii seman-
tice esent iale pentru nt elegerea cont inutului secvent ei.

In ciuda dicultat ii
sporite de generare automata, acest mod de reprezentare al datelor este unul
dintre cele mai eciente si constituie direct ia actuala de cercetare n domeniu.
Pentru a nt elege mai bine diferent a dintre cele trei categorii de adnotari
de cont inut, n Figura 3.9 am ilustrat un exemplu concret de adnotare sin-
tactica, simbolica si respectiv semantica n cazul unei secvent e de fotbal (din
motive de vizualizare, secvent a este reprezentata prin ilustrarea a catorva
imagini reprezentative).
schimbare de plan culori obiect de interes textur text traiectorie sunet
(a)
" , Ronaldo, num r , a " n meciul de al echipei ul fotbal Real Madrid 9 marcat (c)
(b) culoare predominant , , , num ul 9", etc. verde prezen persoan ovaiuni mulime r
Figura 3.9: Exemplu de descriere sintactica (a), simbolica (b) si semantica (c)
n cazul unei secvent e de imagini (axa orizontala reprezinta axa temporala).
Astfel, pornind de la informat ia video (imagine-sunet), adnotarea sintac-
tica va capabil a sa furnizeze doar informat ii relative la scena si la pro-
CAPITOLUL 3. DESCRIEREA CONT INUTULUI MULTIMODAL 39
priet at ile acesteia, precum culoare, prezent a text, textura, traiectoria obiec-
telor n miscare, ritmul de desfasurare al act iunii sau detect ie zgomot audio
specic mult ime.
Folosind aceste informat ii se poate obt ine o descriere simbolica de nivel
semantic intermediar al cont inutului video precum detect ia culorii predomi-
nante ce corespunde gazonului, detect ia unei persoane n miscare, detect ia
ovat iunilor mult imii specice unui gol, detect ia tricoului cu numarul 9 si asa
mai departe. Aceste informat ii, nu sunt simple date numerice dar totusi nu
furnizeaza o ntelegere semantica a cont inutului secvent ei.
O adnotare semantica va da sens acestor informat ii ntr-un mod unitar,
de exemplu textura verde va indica ca este vorba despere un meci de fotbal,
culorile jucatorilor (obiecte n miscare) vor dezvalui echipele, recunoasterea
numerelor de pe tricou va identica jucatorii, segmentarea obiectului de in-
teres, urmarirea acestuia si prezent a zgomotului specic mult imii vor indica
marcarea golului. Astfel ca sistemul va nt elege sensul act iunii secvent ei si
anume ca este vorba despre un meci de fotbal al echipei Real Madrid n care
jucatorul cu numarul 9, Ronaldo, marcheaza.
CAPITOLUL 4
Fuziunea datelor

In cele mai multe dintre cazuri, pentru reprezentarea cont inutului multime-
dia este necesara combinarea mai multor tipuri de descriptori. De exemplu,
cont inutul unei secvent e de imagini poate reprezentat atat pe baza struc-
turii temporale, cat si folosind descriptori de miscare, descriptori audio si
asa mai departe. Strategiile de fuziune a datelor se bazeaza pe ipoteza con-
form careia o decizie obt inut a pe baza mai multor descriptori poate oferi
performant e superioare unei decizii bazate pe un singur tip de descriptor.
Astfel, se pune problema gasirii unei modalitat i de agregare (fuziune) a
acestor date, formand n general un nou descriptor ce sintetizeaza cat mai
bine puterea discriminatorie a descriptorilor individuali.
Cu alte cuvinte, ideal, noul descriptor trebuie sa pastreze acele proprietat i
distincte ale descriptorilor individuali (de exemplu informat ia audio descrie
proprietat i diferite fat a de informat ia structurala) si sa elimine informat iile
redundante (similare), exploatand cat mai bine complementaritatea acestora
n reprezentarea informat iei.

In general exista doua tipuri de abordari ale
problemei fuziunii datelor, tehnici de tip early fusion si respectiv late
fusion [Snoek 05].
4.1 Metode de tip early fusion
Tehnicile de tip early fusion realizeaza agregarea datelor timpuriu n
lant ul de prelucrare, nainte de a folosite la indexare sau n alte procese de
analiza. Fuziunea datelor are loc n spat iul de caracteristici (vezi Sect iunea
41
CAPITOLUL 4. FUZIUNEA DATELOR 42
2.1) si consta practic n concatenarea propriu-zisa a tuturor descriptorilor
f ar a a t ine cont de redundant a acestora.
De exemplu, daca obiectul multimedia X este descris de descriptorii de
cont inut desc
1
= {a
1
, a
2
, ..., a
n
}, desc
2
= {b
1
, b
2
, ..., b
m
} si respectiv desc
3
=
{c
1
, c
2
, ..., c
l
}, unde a, b si c reprezinta valorile atributelor acestora, des-
criptorul agregat este dat de concatenarea valorilor si anume desc
ef
=
{a
1
, ..., a
n
, b
1
, ..., b
m
, c
1
, ..., c
l
}. Acesta deneste astfel un nou spat iu de ca-
racteristici (n +m+l)-dimensional.
O problema care apare o reprezinta necesitatea normalizarii valorilor da-
telor ntr-un anumit interval comun. Descriptori diferit i tind s a aiba intervale
de variat ie diferite ale valorilor, de la normalizari diferite, de exemplu valori
ntre [0; 1] sau [a; b] (unde a si b sunt doua valori cunoscute) pana la intervale
de valori variabile si care depind de tipul datelor.
Dintre tehnicile de normalizare cel mai frecvent folosite putem enumera
normalizarea min-max:
a
i
=
a
i
min{a
i
}
max{a
i
} min{a
i
}
(4.1)
unde a
i
sunt atributele descriptorului, i = 1, ..., n cu n numarul de valori ale
acestuia, min{a
i
} si max{a
i
} reprezinta operatorii ce returneaza valoarea
minima si respectiv maxima a tuturor valorilor descriptorilor (pentru toate
obiectele multimedia considerate) pentru atributul a
i
. Calculata n acest fel,
normalizarea min-max asigur a o normalizare a valorilor n intervalul [0; 1].
Normalizarea z-score se foloseste de calculul abaterii patratice medii:
a
i
=
a
i
medie{a
i
}
{a
i
}
(4.2)
unde ca si n cazul anterior, operatorii medie{a
i
} si {a
i
} returneaza valoarea
medie si respectiv abaterea p atratica medie a tuturor valorilor descriptorilor
pentru atributul a
i
.

In acest caz normalizarea se realizeaza pe o distribut ie
de medie zero si dispersie unu.
O alta abordare consta n calculul statisticii mediane:
a
i
=
a
i
median{a
i
}
median{|a
i
median{a
i
}|}
(4.3)
unde operatorul median{a
i
} returneaza statistica mediana
1
a mult imii tu-
turor valorilor descriptorilor pentru atributul a
i
iar opertorul |.| returneaza
valoarea absoluta.
1
valoarea mediana a unei mult imi se obt ine prin ordonarea valorilor acesteia n ordine
crescatoare si alegerea valorii de mijloc.
CAPITOLUL 4. FUZIUNEA DATELOR 43
Daca ordinul intervalului de variat ie al valorilor descriptorului difera foarte
mult, ca de exemplu printr-un ordin de marime logaritmic, [0; 1] comparativ
cu [0; 1000], normalizarea se poate realiza folosind scalarea zecimala:
a
i
=
a
i
10
n
, n = log
10
(max{a
i
}) (4.4)

In cazul n care nu se cunoaste intervalul de variat ie al valorilor descrip-


torului se poate opta pentru o normalizare folosind funct ii duble sigmoide:
a
i
=
_
1 +exp
_
2
a
i
t
r
__
1
(4.5)
unde t este de regula valoarea medie a distribut iei valorilor descriptorului iar
r = r
1
daca a
i
< t si r = r
2
n caz contrar. Constantele r
1
si r
2
reprezinta
valorile unor intervale alese la dreapta si respectiv stanga valorii lui t. Aceste
aspecte sunt ilustrate n Figura 4.1.
valori iniiale
v
a
l
o
r
i
n
o
r
m
a
l
i
z
a
t
e
Figura 4.1: Exemplu de normalizare folosind funct ii dublu sigmoide (axa oX
corespunde valorilor init iale iar axa oY valorilor normalizate).
Principalul dezavantaj al tehnicilor de tip early fusion este dat de di-
mensionalitatea datelor, descriptorul obt inut prin fuziune avand ca dimen-
siune suma dimensiunilor descriptorilor individuali, ceea ce conduce la un
numar semnicativ de valori (un astfel de descriptor agregat n cazul video
poate avea uzual zeci de mii de componente).
CAPITOLUL 4. FUZIUNEA DATELOR 44
Cu cat dimensiunea datelor este mai ridicata cu atat este mai probabil
ca puterea discriminatorie sa scada deoarece datele similare tind sa se dis-
perseze n spat iul de caracteristici ceea ce face dicil a separarea acestora (si
astfel indexarea). De asemenea, folosind concatenarea descriptorilor nu se
poate controla contribut ia pe care o are ecare descriptor individual asupra
sistemului. Descriptorii de dimensiune mai mare vor tinde sa aiba pondere
principal a n reprezentarea cont inutului raportat la descriptorii cu un numar
redus de valori (de exemplu descriptorii care cont in o singura valoare).
4.2 Metode de tip late fusion
Pe de alta parte, tehnicile de tip late fusion realizeaza fuziunea tarziu n
lant ul de prelucrare bazandu-se pe exploatarea individuala a puterii discri-
minatorii a ecarui descriptor sau modalitat i n parte.
Sa consideram pentru exemplicare un sistem de indexare dupa cont inut
bazat pe clasicarea datelor. Tehnicile de clasicare sunt tehnici de nvat are
asistata de calculator (machine learning). Problema pe care o rezolva
poate formulata n felul urmator: avand la dispozit ie un set necunoscut de
date se doreste realizarea unei partit ionari a acestora n clase de similaritate
(etichetarea acestora ca apart inand unei anumite categorii). Pentru aceasta,
sistemul poate dispune de o serie de exemple de partit ii, numite si date de
antrenare - date pentru care se cunoaste apartenent a la clase si pentru care
problema clasicarii este deja solut ionata (de regula de catre un expert).
Pe baza datelor de antrenare, clasicatorul nvat a mecanismul de asociere
n clase urmand sa-l aplice ulterior datelor noi necunoscute (ne-etichetate)
[Witten 05]. Principiul este ilustrat schematic n Figura 4.2.

In contextul indexarii dupa cont inut, tehnicile de clasicare transpun pro-


blema cautarii ntr-o problema inversa de partit ionare a bazei de date n
funct ie de cont inutul cautat. Problema indexarii se transpune astfel ntr-o
problema de partit ionare adecvata a datelor n categoriile cautate de utili-
zator. De exemplu, daca se doreste cautarea unui anumit gen video, baza
de date va clasicata dupa diferite clase de gen (de exemplu lm, mu-
zica, stiri), daca se doreste gasirea unui anumit obiect ntr-o baza de imagini,
acestea vor clasicate n clase de obiecte (de exemplu minge, masina,
cas a). Procesul de clasicare se realizeaza pe baza reprezentarii datelor cu
descriptori de cont inut.

In momentul cautarii datelor, cererea de cautare a utilizatorului (query)


va asociata uneia dintre clasele determinate anterior, rezultatele cautarii
ind acele documente ce au fost etichetate ca apart inand acestei clase. Ca
si n cazul mecanismului de indexare clasic (vezi Sect iunea 2) datele vor
CAPITOLUL 4. FUZIUNEA DATELOR 45
X
Y
X
Y
clasa 1 clasa 2
clasa 3
clasa 5
clasa 4
(a) (b)
Figura 4.2: Principiul clasicarii datelor: (a) datele de intrare reprezentate
n spat iul de caracteristici, (b) repartit ia n clase obt inuta n urma clasicarii
(obiectele din aceeasi clasa sunt reprezentate cu aceeasi culoare).
returnate n ordinea descresc atoare a relevant ei. Pentru ca acest lucru sa
e posibil, clasicatorul n locul unei decizii binare de apartenent a sau non-
apartenent a va furniza un grad de relevant a, de regula o valoare realan inter-
valul [0; 1], unde 1 reprezinta apartenent a sigura la clasa, iar 0 cazul contrar.
Astfel, rezultatele sunt returnate utilizatorului n ordinea descrescatoare gra-
dului de relevant a furnizat de clasicator pentru clasa ce apart ine cautarii.
Acest mecanism este exemplicat n Figura 4.3 n contextul caut arii dupa
gen a documentelor video.
Revenind la problematica fuziunii datelor, fuziunea de tip late fusion
se realizeaza n acest caz prin fuzionarea rezultatelor clasicarilor obt inute
independent pentru ecare tip de descriptor sau modalitate, cat si pentru
tipuri de clasicatori diferit i.

In acest fel, agregarea datelor nu este realizata
la nivel de descriptor ci la nivelul gradului de relevant a atribuit de ecare
clasicator descriptorilor, beneciind de puterea discriminatorie a ecarui
descriptor n parte. Dintre tehnicile de tip late fusion cel mai frecvent
folosite putem enumera:
fuziunea paralela: presupune rularea aceluiasi sistem n paralel pen-
tru descriptori si tipuri de clasicatori diferit i. Agregarea nala a rezul-
tatelor se realizeaza pe baza agregarii rezultatelor obt inute individual
(vezi Figura 4.4);
fuziunea seriala: presupune rularea n cascada a sistemelor, ecare
iesire a unui clasicator ind folosita la intrarea unui alt clasicator
ca de exemplu pentru clasicarea datelor ce au fost clasicate eronat
CAPITOLUL 4. FUZIUNEA DATELOR 46
baz de filme
web culinar auto
clasificator baz etichetat
dup gen
date de antrenare
gen1 gen2 ...
query=auto
0.9 0.7 0.3
...
Figura 4.3: Exemplu de sistem de clasicare folosit pentru cautarea dupa gen
a secvent elor video. Clasicatorul este mai ntai antrenat folosind un set re-
dus de exemple si un set predenit de genuri urmand sa catalogheze automat
baza video necunoscuta. Cererea de cautare primeste ca rezultat secvent ele
ce au fost atribuite clasei cautate n ordinea descrescatoare a gradului de
relevant a furnizat de clasicator (sursa imagini blip.tv).
de sistemul anterior. Fiecare dintre sisteme ruleaza pentru descriptori
si clasicatori diferit i. Principiul este inspirat de tehnicile de tip bo-
osting n care mai mult i clasicatori slabi (cu preformant e reduse)
sunt combinat i pentru a obt ine un clasicator cu performant e ridicate
(vezi AdaBoost [Witten 05]);
fuziunea ierarhica: sistemele sunt organizate ierarhic, e de tip bo-
ttom-up n care mai mult i clasicatori converg catre un clasicator
nal, sau de tip top-down unde n funct ie de rezultatele unui cla-
sicator init ial, deciziile se separa ierarhic pe mai multe niveluri de
clasicatori. Acest mod de reprezentare este similar arborilor de deci-
zie (vezi Random Forest sau Random Tree [Witten 05]).
fuziunea mixta: const a n combinarea mai multor modalitat i de fu-
zionare din categoriile enumerate anterior.

In continuare vom detalia modul de luare al deciziei n cazul fuzion arii


paralele. Acesta este ilustrat n Figura 4.4. Avand la dispozit ie N clasi-
CAPITOLUL 4. FUZIUNEA DATELOR 47
clasificator1
clasificator2
clasificatorN
...
f()
? auto
audio
text
vizual
Figura 4.4: Principiul fuzionarii de tip late fusion paralel. Catalogarea da-
telor de intrare se realizeaza pe baza unei funct ii de agregare, f(.), a iesirilor
mai multor tipuri de clasicatori antrenat i folosind descriptori diferit i.
catori ce sunt antrenat i folosind descriptori de cont inut diferit i, fuziona-
rea de tip late fusion a descriptorilor presupune determinarea unei funct ii
care combina gradele de relevant a furnizate de ecare clasicator n parte,
f(x
1
, ..., x
N
), unde x
i
reprezinta gradul de relevant a atribuit de clasicato-
rul i datelor de intrare. Acestea reprezinta probabilitat ile de apartenent a la
clasele considerate, x
i
= {p
i,c
1
, p
i,c
2
, ..., p
i,c
M
} unde c
1
, ..., c
M
reprezinta cla-
sele considerate (de exemplu genurile video n Figura 4.3) iar p
i,c
reprezinta
probabilitatea ca datele sa e atribuite ca apart inand clasei c.

In mod natural, ecare clasicator va tinde sa furnizeze grade de apar-


tenent a diferite ind antrenat pentru descriptori diferit i. Funct ia f(.) trebuie
determinata n asa fel ncat rezultatele obt inute de clasicatorul agregat sa
e c at mai bune si superioare ecarui clasicator individual. Agregarea se
va realiza pentru gradele de relevant a ale ecarei clase n parte.
O modalitate de denire a lui f(.) o reprezinta combinat ia liniara a gra-
delor de relevant a si anume:
f
CombMean
(d, c
j
) =
N

i=1

i
p
i,c
j
(4.6)
unde d reprezinta documentul curent, p
i,c
j
reprezinta probabilitatea de apar-
tenent a la clasa c
j
, j = 1, ..., M cu M numarul de clase considerate, atribuita
de clasicatorul i iar
i
reprezinta un set de ponderi. Un caz particular
l reprezinta considerarea de ponderi egale ceea ce conduce la nsumarea
gradelor de relevant a pentru ecare clasa.
CAPITOLUL 4. FUZIUNEA DATELOR 48
Un alt exemplu este atribuirea unei ponderi superioare acelor date care
sunt mai probabile sa e relevante pentru o clasa, astfel:
f
CombMNZ
(d, c
j
) = F(d)

i=1

i
p
i,c
j
(4.7)
unde F(d) reprezinta numarul de clasicatori pentru care documentul d apare
n primele k documente din punct de vedere al valorii de relevant a (k este o
constanta stabilita a priori) iar [0, 1] este un parametru de control.
Noile valori de relevant a obt inute n urma agregari sunt folosite mai de-
parte pentru indexarea datelor n mod similar n care acestea erau folosite n
cazul considerarii unui singur clasicator.
Comparate cu abordarile de tip early fusion, tehnicile de tip late
fusion sunt mai avantajoase din punct de vedere computat ional deoarece
agregarea se face folosind dimensiunea init iala a descriptorilor. Este mai e-
cienta clasicarea unor descriptori de dimensiuni reduse si agregarea rezul-
tatelor decat clasicarea unui descriptor agregat de dimensiuni semnicativ
mai mari. Principalul dezavantaj al acestor metode este totusi dat de pier-
derea eventualei corelat ii dintre descriptori ce se obt ine n cazul concatenarii
acestora si care poate furniza un nivel de discriminare superior folosirii indi-
viduale a acestora.

In ciuda diferent elor dintre cele doua abordari, early fusion si respectiv
late fusion, nu exista o metoda preferent ialan defavoarea celeilalte, ambele
abordari dovedindu-se eciente n contexte diferite. Astfel ca tehnica de
fuziune a datelor ramane dependenta de aplicat ie [Lan 12].
CAPITOLUL 5
Conceptul de similaritate a datelor
Asa cum am prezentat n Sect iunea 2.3, n procesul de cautare dupa cont inut
a datelor, descrierea ecienta a cont inutului nu este sucient a pentru a asi-
gura indexarea acestora n baza de date. La fel de importanta este denirea
conceptului de similaritate (sau opus, disimilaritate) dintre date sau dintre
descriptorii acestora.
Practic identicarea rezultatelor cautarii se realizeaza prin localizarea da-
telor ce sunt similare pana la un anumit nivel cu cererea de cautare (qu-
ery). Cu alte cuvinte este necesara denirea unei funct ii, S(O
1
, O
2
), capabila
sa evalueze n ce masura doua obiecte multimedia, O
1
si O
2
, arata sau suna
n mod similar, n ce masura au o structura similara saun ce masura conduc
la aceeasi percept ie sau interpretare a cont inutului [Worring 03].

In general, evaluarea similaritat ii dintre date se poate realiza e la nivel de


descriptori, la nivel de structura (layout) sau la nivel semantic, e folosind
combinat ii ale acestora.
5.1 Similaritatea descriptorilor

In acest caz, similaritatea datelor este evaluata numeric folosind valorile


descriptorilor de cont inut aferente acestora iar funct ia S() este de regula
o m asura de distant a (metrica). Datele vor considerate similare n masura
n care valoarea distant ei dintre descriptorii acestora este minima.

In cele ce urmeaza vom face o treceren revista a diverselor metrici folosite


n domeniul cautarii informat iei. Marea partea dintre acestea sunt n mod
49
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 50
natural inspirate din matematica [Deza 06].
Una dintre abordarile clasice este folosirea distant ei Minkovski, ce este
denita ca:
S
Mink
(A
O
1
, A
O
2
) =
r

_
n

i=1
[A
O
1
(i) A
O
2
(i)]
r
(5.1)
unde A
O
(i) reprezinta valoarea de indice i a descriptorului aferent obiectului
multimedia O, cu i = 1, ..., n elemente (de regula descriptorii de cont inut
sunt vectori n-dimensionali de valori, vezi si Sect iunea 2.1).

In cazul n care consideram parametrul r = 1 obt inem norma L1 sau


distant a Manhattan:
S
Manh
(A
O
1
, A
O
2
) =
n

i=1
|A
O
1
(i) A
O
2
(i)| (5.2)
unde operatorul |.| reprezinta valoarea absoluta.
Pentru r = 2 obt inem mai departe norma L2 cunoscuta sub numele de
distant a Euclidiana:
S
Euclid
(A
O
1
, A
O
2
) =

_
n

i=1
[A
O
1
(i) A
O
2
(i)]
2
(5.3)

In cazul n care nu toate elementele descriptorului au aceeasi important a,


distant a dintre ecare pereche de valori poate ponderata diferit obt inand
astfel distant a Euclidiana ponderata:
S
wEuclid
(A
O
1
, A
O
2
) =

_
n

i=1
w
i
[A
O
1
(i) A
O
2
(i)]
2
(5.4)
unde w
i
, cu i = 1, ..., n reprezinta ponderile ecarei valori.
O alta masura de distant a ce este folosita de regula cand descriptorii de
cont inut sunt reprezentat i sub forma de histograme (de exemplu histograma
color a unei imagini) o constituie intersect ia histogramei. Aceasta este de
fapt o masura a disimilaritat ii si este denita ca suma minimelor valorilor
histogramelor:
S
inter
(h
O
1
, h
O
2
) =
n

i=1
min{h
O
1
(i), h
O
2
(i)} (5.5)
unde h
O
(i) cu i = 1, ..., n reprezinta histograma color a obiectului multimedia
O iar operatorul min{.} returneaza valoarea minima a unui set de elemente.
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 51
Tot n cazul evaluari diferent elor dintre histograme si n special dintre
histogramele color ale imaginilor, n cazul folosirii distant elor clasice, este
foarte probabil ca pentru distribut ii ale unei aceleiasi nuant e (de exemplu
rosu deschis si rosu) sa obt inem valori semnicative ale distant ei, de ordin de
masura similar ca pentru distant a fat a de o distribut ie a unei nuant e complet
diferite (de exemplu albastru), n ciuda faptului ca diferent ele n primul caz
ar trebui sa e reduse, culorile ind asemanatoare. O distant a care tinde sa
contracareze acest efect este distant a patratica dintre histograme:
S
hist2
(h
O
1
, h
O
2
) =
_
(h
O
1
h
O
2
)
T
A (h
O
1
h
O
2
) (5.6)
unde h
O
reprezinta vectorul histograma cu n elemente, T reprezinta transpusa
unei matrice iar A = [a
i,j
], i, j = 1, ..., n, reprezinta o matrice patratica de
valori ce indica corelat ia dintre elementele histogramelor de indici i cu cele
de indice j (de regula A este simetrica si are elementele de pe diagonala
principal a egale cu 1).
Alte masuri de distant a frecvent folosite sunt distant a Canberra:
S
Canb
(A
O
1
, A
O
2
) =
n

i=1
|A
O
1
(i) A
O
2
(i)|
|A
O
1
(i)| +|A
O
2
(i)|
(5.7)
distant a Bray-Curtis:
S
BC
(A
O
1
, A
O
2
) =
n

i=1
|A
O
1
(i) A
O
2
(i)|
n

i=1
[A
O
1
(i) +A
O
2
(i)]
(5.8)
distant a SquaredChord:
S
SChord
(A
O
1
, A
O
2
) =
n

i=1
_
_
A
O
1
(i)
_
A
O
2
(i)
_
2
(5.9)
distant a Lorentzian, Soergel, Czekanowski, Motyka, Ruzicka, Tanimoto, Wave-
Hadges, Clark, Person si asa mai departe. Pentru mai multe detalii cititorul
se poate raporta la [Deza 06].
O abordare diferita este distant a Bhattacharyya ce masoar a similarita-
tea a doua distribut ii de probabilitate.

In cazul n care descriptorii sunt
considerat i a avea o distibut ie normala Gaussiana, distant a poate scrisa ca
ind:
S
Bhatta
(A
O
1
, A
O
2
) =
1
8

_

A
O
1

A
O
2
_
T
(
O
1
,O
2
)
1

A
O
1

A
O
2
_
+
1
2
ln
_
det(
O
1
,O
2
)
_
det(
O
1
) det(
O
2
)
_
(5.10)
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 52
unde
A
O
reprezinta vectorul medie al distribut iei de probabilitate a descrip-
torului A
O
,
O
reprezinta matricea de covariant a a distribut iei lui A
O
,
O
1
,O
2
reprezinta media aritmetica a matricelor de covariant a pentru distribut iile lui
A
O
1
si A
O
2
(vezi si [Ciuc 05]), T reprezinta transpusa unei matrice iar ope-
ratorul det(.) returneaza determinantul unei matrice.
O alta perspectiva o constituie reprezentarea datelor sub forma de mult imi.
Distant a Hausdor evalueaza gradul de apropiere a doua submult imi ntr-un
anumit spat iu si folosind o anumita metrica, astfel:
S
Haus
(A
O
1
, A
O
2
) = max{sup
i
inf
j
d(A
O
1
(i), A
O
2
(j)),
sup
j
inf
i
d(A
O
1
(i), A
O
2
(j))} (5.11)
unde i, j = 1, ..., n, inf si sup reprezinta inmum si respectiv supremum al
unei mult imi (de regula valoarea minima si respectiv maxima), d(.) reprezinta
o anumita metrica (de exemplu norma L1) iar max{.} returneaza valoarea
maxima a unei mult imi.

In acest caz, valorile descriptorilor pot vazute din
perspectiva elementelor unei mult imi.
Un alt caz interesant este distant a cosinus. Sa presupunem ca descrip-
torii de cont inut sunt vectori de caractere iar datele ce trebuiesc comparate
sunt documente textuale, atunci similaritatea dintre acestea poate evaluata
folosind produsul scalar:
S(A
O
1
, A
O
2
) =
n

i=1
A
O
1
(i) A
O
2
(i) (5.12)
Acum daca descriptorii textuali sunt reprezentat i sub form a de histograme
ale caror valori indica numarul de aparit ii al unui anumit cuvant n document
(eventual ponderat de un factor de important a - cuvintele sunt alese pentru
un dict ionar predenit; vezi TF-IDF n Sect iunea 3.3) atunci similaritatea
se reduce la o nmult ire a valorilor histogramelor pentru cele doua docu-
mente. Astfel, atunci cand un cuvant apare frecvent n cele doua documente,
contribut ia acestuia la produs va semnicativa.
Problema care apare este faptul ca documentele mari vor cont ine mai
multe cuvinte si vor tinde sa devina mai similare decat documentele ce cont in
mai put in text. Astfel ca n practica descriptorii sunt normalizat i la dimen-
siunea acestora ||A
O
||
2
=

n
i=1
A
2
O
(i) ceea ce conduce la formularea distant ei
cosinus astfel:
S
cos
(A
O
1
, A
O
2
) =
A
O
1
A
O
2
||A
O
1
|| ||A
O
2
||
(5.13)
unde reprezinta produsul scalar (denumirea de cosinus vine de la faptul ca
distant a este practic cosinusul unghiului celor doi vectori normalizat i).
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 53

In cazul compararii de obiecte, de exemplu prin intermediul a dou a ima-


gini binare (n care obiectul are valoarea 1 si fundalul 0) se poate folosi
distant a Baddeley denita n felul urmator:
S
Badd
(I
O
1
, I
O
2
) =
_
1
M N

pS
|d
I
O
1
(p) d
I
O
2
(p)|
q
_
1/q
(5.14)
unde I
O
reprezinta o imagine binara, M N reprezinta numarul total de
pixeli din setul S, d
I
O
(p) reprezinta o anumita metrica de distant a de la
punctul p la cel mai apropiat punct al obiectului cont inut n imaginea I
O
iar q este exponentul (de regula se considera q = 2). Denita n acest fel,
distant a Baddeley ofera un anumit grad de invariant a la translat ia obiectelor
si modicarea factorului de scala.
O problema aparte o ridica compararea descriptorilor de dimensiuni di-
ferite, ca de exemplu histogramele color a doua imagini cu palete de culoare
diferite (binii histogramei si numarul acestora sunt diferite). O solut ie n
acest sens este propusa de distant a Earth Movers Distance (EMD). Aceasta
se bazeaza pe evaluarea costului minim aferent transformarii unuia dintre
descriptori n cel alalt si este formulata ca o problema de optimizare. EMD
este denita n felul urmator:
S
EMD
(A
O
1
, A
O
2
) =

m
i=1

n
j=1
d
i,j
f
i,j

m
i=1

n
j=1
f
i,j
(5.15)
unde cei doi descriptori A
O
1
si respectiv A
O
2
au dimensiuni diferite, m si
respectiv n, d
i,j
reprezinta distant a dintre valorile A
O
1
(i) si respectiv A
O
2
(j)
iar f
i,j
este o funct ie de cost ce reprezinta deplasarea ntre A
O
1
(i) si A
O
2
(j)
determinata ca minimizand valoarea costului total

m
i=1

n
j=1
d
i,j
f
i,j
cu o
serie de constrangeri [Rubner 00].
O alta categorie de distant e sunt cele inspirate din teoria informat iei a
lui Shannon, precum divergent ele KullbackLeibler:
S
KL
(A
O
1
, A
O
2
) =
n

i=1
A
O
1
(i) ln
A
O
1
(i)
A
O
2
(i)
(5.16)
sau divergent a Jerey:
S
Jeff
(A
O
1
, A
O
2
) =
n

i=1
[A
O
1
(i) A
O
2
(i)] [ln(A
O
1
(i)) ln(A
O
2
(i))] (5.17)
Acestea sunt aplicate cu prec adere la compararea descriptorilor specici da-
telor audio, unde este relevanta distribut ia statistica a valorilor acestora.
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 54
Pentru a ilustra important a alegerii adecvate a masurii de distant a, n
Figura 5.1 am prezentat rezultatele obt inute pentru o cautare de imagini cu
relevance feedback (vezi Sect iunea 2.4) si folosind metrici si descriptori de
cont inut diferit i [Mironica 12b]. Gracele ilustreaza performant a cautarii pe
baza valorii MAP (Mean Average Precision, vezi Sect iune 8; reprezentata pe
axa oY - valoarea maxima este 1 ce indica o performant a de 100%) raportata
la metrica folosita (axa oX). Pentru descrierea cont inutului imaginilor au
fost folosit i descriptori de trasaturi de tip SIFT si SURF (vezi Sect iune 3.1).
Testele au fost efectuate pe doua baze de imagini, baza Microsoft Object
Class Recognition
1
(puncte rosii) si respectiv Caltech-101
2
(puncte albastre).
0
0.2
0.4
M
A
P
descriptori SURF
0.6
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Microsoft
Caltech-101
1 - Euclidian
2 - Pearson
3 - Manhatan
4 - Squared Chord
5 - Canberra
6 - Jefrey
7 - Soergel
8 - Bhattacharyya
9 - Chi-Square
10 - Bray-Curtis
11 - Matusita
12 - Czekanowski
13 - Cosine
14 - Lorentzian
15 - Ruzicka
16 - Dice
17 - Motika
18 - Tanimoto
19 - Clark
Baz de imagini
Metric
0
0.2
0.4
0.6
M
A
P
descriptori SIFT
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Figura 5.1: Exemplu de inuent a a metricii asupra performant elor cautarii de
imagini [Mironica 12b] (MAP reprezinta Mean Average Precision - valoarea
maxima 1 corespunde unei performant e de 100%).
Se poate observa faptul ca n funct ie de metrica, performant ele sistemului
variaza semnicativ, de exemplu pentru baza Microsoft valorile MAP variaza
de la 10% la 50% pentru descriptorii SURF si de la 10% la 38% pentru SIFT.
Pe l anga alegerea adecvata a descriptorilor (se observa si n gura faptul ca
1
Microsoft Object Class Recognition http://research.microsoft.com/en-us/
projects/objectclassrecognition.
2
Caltech-101 http://www.vision.caltech.edu/Image_Datasets/Caltech101.
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 55
descriptorul SURF este mai performant n contextul sistemului prezentat),
alegerea adecvata a metricii joaca un rol cel put in la fel de important.
5.2 Similaritatea la nivel de structura
Aceasta presupune evaluarea gradului de similaritate a doua obiecte multi-
media, O
1
si O
2
, din punct de vedere al structurii acestora, ca de exemplu
modul de aranjare spat iala a obiectelor n imagini, modul de structurare al
unei paginii de text, structura temporala a unui document video. O moda-
litate ecienta de caracterizare a structurii este prin intermediul descrierii
acesteia cu siruri de caractere [Worring 03].
S a consideram n continuare exemplul datelor video. Un document vi-
deo, din punct de vedere structural, este constituit ca o nsiruire de plane
video separate de tranzit ii (vezi Sect iunea 3.1). Informat ia structurala poate
consta n descrierea acestei structuri. Documentul video poate reprezentat
ca un sir de caractere de genul scswsdcs, unde s reprezinta un plan video
(shot), c reprezinta o tranzit ie de tip cut, w reprezinta o tranzit ie gra-
dual a de tip wipe iar d reprezinta un dissolves. Informat ia temporala
este data de ordinea simbolurilor n sir, astfel acest document video ncepe
cu un plan urmat de un cut, un plan video, o tranzit ie dissolves si asa
mai departe.
Pentru a compara similaritatea descriptorilor astfel obt inut i o varianta e-
cient a o reprezinta folosirea distant ei de editare (edit distance), ce foloseste
un concept similar distant ei Earth Movers Distance (EMD) descrisa anterior.
Avand la dispozit ie descriptorii structurali de cont inut ai celor doua obiecte
multimedia, A
O
1
= {a
1,1
, a
1,2
, ..., a
1,n
} si respectiv A
O
2
= {a
2,1
, a
2,2
, ..., a
2,m
},
unde n si m reprezinta numarul de caractere, un alfabet ce descrie sim-
bolurile posibile (valorile lui a), un set E de operat ii de editare si costurile
aferente acestora, distant a de editare dintre A
O
1
si A
O
2
reprezinta costul
minim de transformare a sirului A
O
1
n sirul A
O
2
pe baza operat iilor din E.

In cazul a doua secvent e video, sa presupunem ca descriptorii acestora


sunt V
O
1
= {scswsdcs} si V
O
2
= {sdswscscscs}, mult imea = {c, w, d, s}
iar operat iile de editare posibile sunt E = {inserare,stergere,nlocuire} iar
costurile aferente acestora sunt egale. Operat iile necesare pentru a trans-
forma pe V
O
1
n V
O
2
constau n doua nlocuiri ale lui c cu d si respectiv
doua operat ii de inserare pentru adaugarea lui c si s la sfarsit. Astfel
distant a de editare dintre cei doi descriptori este n acest caz 4.
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 56
5.3 Similaritatea semantica
Asa cum am prezentat si n Sect iunea 3.4, tendint a actuala a sistemelor de
indexare este aceea de a determina descriptori de cont inut ce ofera un nivel
de nt elegere al cont inutului cat mai apropiat de nivelul de percept ie uman.
Acest lucru se realizeaza n principal prin identicarea a ceea ce numim
concepte. Un concept este practic o reprezentare textuala a entitat ilor
reprezentate de obiectul multimedia, exemple de concepte n cazul imaginilor
sau a documentelor video ind cer, masina, persoana, casa, si asa
mai departe [Over 12].
Reprezentarea conceptelor poate realizata e prin adnotarea manuala a
acestora de catre utilizator, e folosind tehnici automate de adnotare sau fo-
losind informat ii derivate din ontologii. Ontologia constituie un mod formal
de reprezentare a cunoasterii sub forma unui set de concepte dintr-un dome-
niu si a relat iilor dintre acestea folosind urmatoarele componente: obiecte sau
instant e, clase (mult imi, colect ii, concepte), atribute (proprietat i, trasaturi,
parametri ai obiectelor si claselor), relat ii (descriu modul n care clasele si
instant ele sunt relat ionate), restrict ii, reguli (armat ii de tip daca-atunci
(if-then) sau antecedent-consecvent ce descriu o serie de implicat ii logice),
axiome si evenimente (modul de schimbare al atributelor sau al relat iilor).
main
traciune fa traciune integral
Ford Bronco Ford Explorer
( ) a (b)
C1
c1
c2
C2
concept
instan
Figura 5.2: Exemple de ontologii: (a) denirea clasei masina si a obiectelor
Ford Bronco si Ford Explorer (exemplu din Wikipedia), (b) calculul
distant ei dintre doua concepte, C
1
si C
2
(exemplu din [Worring 03]).
Un exemplu este ilustrat n Figura 5.2.(a) unde este prezentata o onto-
logie simplicata pentru clasa masina. O clasa poate subordonata unei
alte clase, de exemplu clasa masina poate considerata subclasa pentru
clasa autovehicul, deoarece tot i membrii acesteia sunt implicit si membrii
clasei autovehicul, sau la randul ei poate sa cont ina alte clase subordonate,
CAPITOLUL 5. CONCEPTUL DE SIMILARITATE A DATELOR 57
de exemplu clasele tract iune fat a si tract iune integrala n exemplul din
gura.
Acest mod de reprezentare creaza o structura ierarhica n care la nivelul
ierarhic superior se gasesc clasele cele mai generale iar la cel inferior clasele
cele mai specice. Relat iile de subordonare implica mostenirea proprietat ilor
claselor superioare (parint i) catre clasele inferioare (copii). O partit ie a
ontologiei reprezinta un set de clase si regulile asociate acestora ce asigura
faptul ca obiectele pot clasicate n subclasa cea mai apropiat a.
De exemplu, Figura 5.2.(a) cont ine de fapt diagrama part iala a unei onto-
logii ce corespunde unei partit ii a clasei masina n clasele tract iune fat a
si tract iune integrala. Regula de partit ionare determina daca o anumita
masina poate clasicata n una dintre cele doua subclase.

In acest mod de
reprezentare, obiectele sunt descrise de atribute. Tipul unui obiect si tipul
atributelor determina modul de relat ionare ntre acestea. O relat ie dintre un
obiect si un atribut reecta faptul ca acesta este specic obiectului de care
este relat ionat.

In exemplul din Figura 5.2.(a), obiectul Ford Explorer poate cont ine
atribute de tipul:
<se numeste> Ford Explorer,
<are drept componenta> usa (numar minim si maxim 4),
<are drept componenta unul dintre> {motor 4.0 litrii, motor 4.6 litrii},
<are drept componenta> transmisie cu 6-viteze,
Mai multe informat ii relative la ontologii pot gasite n [Gomez-Perez 04].

In cazul compararii descrierilor semantice reprezentate sub forma de con-


cepte, o metoda simpla const a n evaluarea distant ei ce trebuie parcursa n
arborele unei ontologii pentru a ajunge de la un concept la altul. Un exem-
plu este prezentat n Figura 5.2.(b) n care am ilustrat conceptul C
1
si C
2
n contextul unei ontologii. Avand la dispozit ie instant ele c
1
si respectiv c
2
ale acestor concepte, obt inute de exemplu din datele multimedia ce trebuiesc
comparate, o masura a similaritat ii acestora poate determinata ca numarul
de pasi necesari n arbore pentru a ajunge de la conceptul C
1
la C
2
, si anume
3 pentru acest exemplu (ce corespunde numarului de laturi ale arborelui ce
trebuiesc parcurse, vezi sageata n gura).
CAPITOLUL 6
Tehnicile de tip relevance feedback
Asa cum a fost prezentat si n Sect iunea 2.4, conceptul de relevance feed-
back n contextul sistemlor de indexare dupa cont inut se refera la interact ia
cu utilizatorul n vederea mbunatat irii rezultatelor init iale ale cautarii.

In
general, mecansimul de relevance feedback funct ioneaza dupa urmatorul
algoritm [Manning 08]:
1. cautarea datelor dorite: utilizatorul realizeaza o anumita cautare
specicand datele dorite prin formularea unei cereri de cautare (qu-
ery). Sistemul, pe baza mecanismului implementat, returneaza re-
zultatele ce au caracteristicile cele mai apropiate de query folosind
un anumit criteriu de similaritate. Pana n acest punct, procesul este
identic procesului de cautare al unui sistem de indexare (vezi Sect iunea
2);
2. evaluare rezultate de catre utilizator: n funct ie de performant a sis-
temului, rezultatele obt inute pot mai mult sau mai put in relevante
pentru datele cautate.

In acest punct, utilizatorul analizeaza rezulta-
tele si le clasica manual ca ind, e relevante pentru cautare (rezultat
corect), e ne-relevante (rezultat eronat). De regula acest proces are
loc pentru un numar limitat de rezultate, de ordinul zecilor;
3. ranare rezultate: informat iile furnizate de utilizator sunt folosite
drept referint a (ground truth). Pe baza acestora, sistemul va re-
calcula o reprezentare mai buna a rezultatelor cautarii furnizand uti-
lizatorului o ranare a rezultatelor n funct ie de asemanarea cu datele
59
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 60
indicate drept relevante pentru cautare. Acest pas constituie practic
algoritmul efectiv de relevance feeback;
4. re-iterare algoritm: n funct ie de calitatea noilor rezultate obt inute,
ntreg procesul poate repretat prin reluarea punctului 2 pana cand
rezultatele obt inute sunt satisfacatoare pentru utilizator saundeplinesc
un anumit criteriu de performant a.
Un exemplu este prezentat n Figura 6.1 pentru cautarea de imagini n
baza de date Microsoft Object Class Recognition
1
.
cutare iniial
refinare rezultate folosind Relevance Feedback
a a
a
r r r r r
r r r r r r r
Figura 6.1: Exemplu de relevance feedback n cazul cautarii de imagini
(metoda propusa n [Mironica 12a]). Imaginile de mai sus reprezinta rezulta-
tele sistemului de indexare pentru cautarea imaginilor similare cu imaginea
marcata de chenarul rosu (

si x reprezinta rezultatele corecte si respectiv


eronate marcate de utilizator) n timp ce imaginile din partea de jos repre-
zinta ranarea rezultatelor cu relevance feedback.
Cererea de cautare a fost formulata prin furnizarea unei imagini exemplu
(vezi imagine marcata de dreptunghiul rosu).

In prima parte a gurii sunt
ilustrate rezultatele obt inute init ial de sistemul de indexare (din motive de
spat iu sunt prezentate doar primele 15 rezultate; rezultatele sunt asate n
ordine descrescatoare a similaritat ii, de la stanga la dreapta si de sus n jos).
Pentru aceste rezultate utilizatorul a marcat imaginile corecte (simbol

) si
respectiv cele eronate (simbol x).

In partea de jos a gurii sunt prezentate rezultatele ranate n urma


aplicarii metodei de relevance feedback ierarhic propusa n [Mironica 12a].
1
vezi nota de subsol 1.
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 61
Se poate observa o mbunatat ire semnicativa a performant elor sistemului,
imaginile returnate n acest caz corespunzand n totalitate cererii de cautare.

In funct ie de modul n care sunt preluate informat iile de la utilizator


(feedback), ntalnim trei tipuri de algoritmi:
feedback explicit: corespunde algoritmului descris anterior n care
utilizatorul el nsusi specica care dintre rezultate sunt corecte si care
sunt eronate;
feedback blind sau pseudo-feedback: presupune simularea interac-
t iei cu utilizatorul si se bazeaza pe ipoteza conform careia sistemul
de indexare este sucient de performant (prin prisma descriptorilor
de cont inut folosit i si al mecanismului de cautare) astfel ncat este
foarte probabil ca primele rezultate returnate sa cont ina un numar
semnicativ de rezultate corecte.

In acest caz, interact ia cu utilizatorul
este substituita prin considerarea implicita a primelor k rezultate drept
relevante [Larson 10]. Pe masura ce datele cautate devin din ce n ce
mai complexe (exemplu multimodale), ipoteza de relevant a a primelor
rezultate devine din ce n ce mai dicil realizabil a ceea ce conduce la
performant e limitate pentru aceasta abordare;
feedback indirect: interact ia cu utilizatorul se realizeaza n acest
caz n mod indirect, pe baza observarii comportamentului de c autare
a diversi utilizatori n situat ii diferite. De exemplu, sistemul poate uti-
liza informat ii despre datele pe care utilizatori diferit i le-au accesat n
urma cautarii unor documente cu cont inut asemanator (faptul ca docu-
mentele respective au fost accesate confera un grad de ncredere ridicat
privind relevant a cont inutului acestora) [Kelly 03]. Aceste informat ii
pot stocate cu usurint a de motoarele de cautare actuale si n special
de cele on-line bazate pe text, ca de exemplu istoricul cautarii pe In-
ternet ce implica accesarea de documente web, mesagerie electronica,
articole de stiri, lme, cart i, programe TV si asa mai departe.

In funct ie de durata relativa a procesului de antrenare a sistemului, algo-


ritmii de relevance feedback se mpart n algoritmi cu antrenare cu termen
scurt de nvat are (short-term relevance feedback) si respectiv cu antrenare
cu termen lung (long-term relevance feedback).
Antrenarea cu termen scurt de nvat are presupune interact ia cu utili-
zatorul doar n sesiunea curenta ind si categoria cea mai studiata de metode
n contextul sistemelor de indexare multimedia. Dintre abordarile cele mai
frecvent folosite putem enumera: algoritmi de schimbare a punctului de in-
terogare, algoritmi de determinare a important ei descriptorilor de cont inut,
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 62
algoritmi statistici sau algoritmi ce implementeaza procesul de relevance
feedback ca o problema de clasicare binara a datelor n doua clase de
relevant a: date relevante si date ne-relevante pentru utilizator. O parte din-
tre aceste metode sunt detaliate ulterior n sect iunile urmatoare.
Principalele provocari ale acestui tip de abordare pot sintetizate cu
urm atoarele:
numarul rezultatelor cautarii pentru care utilizatorul furnizeaza rele-
vant a acestora este de regula mult mai mic decat dimensiunea des-
criptorilor de cont inut (dimensiunea spat iului de caracteristici) folosit i
pentru reprezentarea datelor (vezi Sect iunea 2.1), oferind astfel o ca-
pacitate de select ie limitata din punct de vedere statistic;
realizarea interact iei cu utilizatori diferit i va conducen general la rezul-
tate diferite si uneori chiar contradictorii. Persoane diferite au moduri
de percept ie diferita cu privire la proprietat ile acelorasi concepte, de
exemplu un expert va percepe ntr-un mod diferit cont inutului imaginii
unei opere de arta fat a de o persoana neavizata. Acest lucru va con-
duce la varierea performant elor sistemului de relevance feedback n
funct ie de utilizator;
discrepant a dintre numarul de rezultate relevante si cele nerelevante.
De cele mai multe ori numarul de rezultate relevante returnate de sistem
tinde sa e foarte mic neind suciente pentru ca sistemul sa se poata
adapta la acestea. Acceasi problema apare si n situat ia opusa, cand
nu exista practic nici un rezultat nerelevant, situat ie n care sistemul
nu poate face diferent a dintre cele doua cazuri;
ranarea rezultatelor n timp real este de asemenea un punct critic.
Avand n vedere interact ia directa cu utilizatorul, pentru a renta-
bil, sistemul trebuie sa poata furniza noile rezultate cat mai rapid,
implicand un timp de asteptare minim din partea utilizatorului.

Invat area de lunga durata se foloseste nu numai de informat iile obt inute
de la utilizator n sesiunea curenta, ci de toate informat iile furnizate de-a
lungul timpului de utilizatori diferit i si n sesiuni diferite. Acestea sunt de
regul a stocate de cele mai multe ori sub forma unei reprezentari matriceale
a relat iilor descoperite ca existand ntre informat iile din baza de date, relat ii
ce sunt actualizate pe masura ce se obt in noi informat ii de la utilizatori.
Ca si n cazul anterior, exista o serie de limitari ale acestui mod de abor-
dare, cele mai semnicative ind:
acesti algoritmi sunt mai dicil de implementat n cazul bazelor de date
ce presupun frecvent eliminarea si adaugarea de date noi;
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 63
gradul de succes depinde foarte mult de cantitatea de informat ii de fee-
dback stocate anterior, de cele mai multe ori n realitate preferandu-se
utilizarea unei combinat ii ntre strategii de nvat are de scurta si lunga
durata;
datorita utilizarii mai multor surse de feedback informat ia stocata
tinde sa e neomogena si foarte probabil sa nu acopere toate datele;
ca si n cazul anterior, procesul de ranare trebuie sa poat a imple-
mentat n timp real. Suplimentar complexitat ii datelor de prelucrat,
sistemul trebuie sa e capabil sa analizeze si un volum semnicativ
de date de feedback de la utilizatori. De regula pentru a solut iona
aceasta problema, se preferampart irea bazei de date pe diverse niveluri
de relevant a folosind ierarhii arborescente de cont inut.
6.1 Algoritmul Rocchio
Algoritmii de schimbare a punctului de interogare constituie una dintre pri-
mele abordari de tip relevance feedback ale problemei ranarii rezultatelor
cautarii, dezvoltate init ial n contextul cautarii de documente textuale, exem-
plu ind algoritmul propus de Rocchio [Rocchio 71]. Pornind de la modul
de reprezentare al datelor ntr-un sistem clasic de indexare dup a cont inut n
care ecare document este reprezentat ca un punct n spat iul de caracteristici
denit de descriptorii de cont inut asociat i (vezi si Figura 2.2), o anumita ce-
rere de cautare a utilizatorului (query) este descrisa la randul ei n acelasi
spat iu sub forma unui punct numit si punct de interogare.
Acest lucru este ilustrat schematic n Figura 6.2. Axele a
1
, a
2
, ..., a
n
reprezinta valorile atributelor de cont inut ce denesc spat iul de caracteristici
n-dimensional. Fiecare punct reprezinta valorile descriptorilor unui docu-
ment din baza de date. Cererea de cautare este reprezentata n acest caz de
dreptunghiul verde (punctul de interogare).

In urma procesului de cautare,
sistemul returneaza ca rezultat datele cele mai apropiate punctului de in-
terogare marcate n Figura 6.2 de cercul punctat (punctele care se aa la
o anumita distant a de query, de regula n interiorul unei sfere). Aceste
rezultate sunt prezentate utilizatorului de regula n ordinea descrescatoare a
distant ei fat a de punctul de interogare.
Conform algoritmului de relevance feedback, utilizatorul marcheaza
mai departe rezultatele ca ind, e relevante, e nerelevante pentru datele
cautate; de exemplu punctele marcate n gura cu cercuri verzi si respectiv
punctele marcate cu + de culoare rosie.
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 64
+ +
+
+
a
1
a
2
a
3
a
n
+
+
+
+
- punct de interogare
- document din baz
- rezultat relevant
+
- rezultat nerelevant
q
desc
q
desc
+
+
+
Figura 6.2: Modul de schimbare a punctului de interogare n cazul metodei
propuse de Rocchio [Rocchio 71] (reprezentarea obiectelor din baza n spat iul
de caracteristici; desc
q
reprezinta punctul de interograre init ial iar desc
q
noul
punct de interogare calculat - notat iile sunt explicate n text).
Algoritmul lui Rocchio utilizeaza mult imea de documente relevante, R,
si respectiv de documente nerelevante, N, pentru a redeni un nou punct de
interogare folosind urmatoarea relat ie:
desc
q
= desc
q
+
1
||R||

desc
i
R
desc
i

1
||N||

desc
j
N
desc
j
(6.1)
unde desc
q
reprezinta noul punct de interogare, desc
q
reprezinta punctul de
interogare init ial, (ponderea punctului init ial de interogare), (factorul de
important a al rezultatelor relevante) si (factorul de important a al rezul-
tatelor nerelevante) sunt o serie de ponderi alese empiric (valorile acestora
sunt cuprinse n intervalul [0; 1]), ||.|| este operatorul ce returneaza numarul
de elemente ale unei mult imi iar desc = {a
1
, ..., a
n
} reprezinta descriptorii de
cont inut ai rezultatelor cautarii.
Denit n acest fel, noul punct de interogare tinde sa se deplaseze spre
centroidul mult imii R a rezultatelor marcate ca ind relevante, ceea ce n
urma reluarii mecanismului de cautare va conduce la rezultate mai relevante.
6.2 Estimarea important ei atributelor
Algoritmii de estimare a important ei atributelor (Feature Relevance Estima-
tion) [Rui 99] pleaca de la ipoteza conform careia pentru o anumita cautare
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 65
ponderea atributelor descriptorilor de cont inut poate inuent a relevant a re-
zultatelor.

In mod implicit, atributele descriptorilor sunt considerate a avea o
contribut ie identica la localizarea datelor celor mai similare, acest lucru ind
realizat pe baza calculului unei masuri de distant a (de exemplu distant a
Euclidiana, vezi si Sect iunea 5). Pe baza interact iei cu utilizatorul, ponde-
rile atributelor pot modicate astfel ncat sa se mbunatat easca rezultatele
cautarii.
Folosind notat iile anterioare, daca desc = {a
1
, ..., a
n
} reprezinta des-
criptorul de cont inut al datelor, unde a
i
cu i = 1, ..., n reprezinta valorile
atributelor acestuia, atunci se va considera un anumit vector de ponderi,
W = {w
1
, ..., w
n
}, unde w
i
reprezinta ponderea atributului a
i
. Aceste valori
sunt init ial considerate egale cu 1 (cu alte cuvinte nu exista ponderare).
Sistemul de indexare realizeaza cautarea datelor pe baza compararii des-
criptorilor si returneaza rezultatele n ordinea descrescatoare a similaritat ii.
Ca si n cazul anterior, utilizatorul marcheaza rezultatele relevante si respec-
tiv nerelevante. Pe baza acestor informat ii se va modica ponderea indivi-
dual a a ecarui atribut.
O varianta o reprezinta calculul lui w
i
n funct ie de abaterea patratica
medie a valorilor atributelor
i
, si anume:
w
i
=
1

i
(6.2)
unde
i
reprezinta abaterea patratica medie a valorilor atributului a
i
pen-
tru documentele marcate drept relevante de utilizator. Denit n acest fel,
un atribut cu grad de important a ridicat va tinde sa aiba o valoare relativ
constanta pentru ecare document n timp ce un atribut mai put in discrimi-
nant pentru datele cautate va tinde sa aiba o gama mult mai mare de valori,
ponderea acestuia ind redusa proport ional.
O alta abordare consta n folosirea de ponderi ce depind de rezultatele
cautarii individuale dupa ecare atribut n parte:
w
i
=
2 ||R
i
||
T
(6.3)
unde R
i
reprezinta mult imea documentelor relevante n cazul unei cautari
folosind drept descriptor doar atributul a
i
, ||.|| este operatorul ce returneaza
numarul de elemente ale unei mult imi iar T reprezinta numarul total de
documente relevante din baza.
Odata determinate ponderile atributelor, acestea sunt folosite la ranarea
rezultatelor cautarii prin calcularea similaritat ii documentelor pe baza unei
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 66
+
+
+
+
a
1
a
2
+
+
+
+
+
+
+
+
+
+
+
+
+
a
1
a
2
+
+
+
+
+
+
+
+
+
( ) a (b)
- punct de interogare
- document relevant
+
- document nerelevant
w =w
1 2
w >w
1 2
Figura 6.3: Estimarea important ei atributelor cu metoda [Rui 99] (reprezen-
tarea obiectelor din baza n spat iul de caracteristici - pentru exemplicare
s-au ales doar doua atribute): (a) reprezentarea rezultatelor cautarii (deli-
mitate de cercul punctat), (b) modicarea rezultatelor n funct ie de noua
pondere a atributelor (delimitate de elipsa punctata).
masuri de distant e ponderate:
d
FRE
(desc
x
, desc
y
, W) =

n
i=1
w
i
(a
xi
a
yi
)
2

n
i=1
w
i
(6.4)
unde desc
x
si desc
y
reprezinta descriptorii de cont inut a doua documente iar
a
xi
si a
yi
cu i = 1, ..., n atributele acestora.
Modicarea ponderilor asociate ecarui atribut individual al descriptoru-
lui n funct ie de rezultatele relevante se traduce n spat iul de caracteristici
prin modicarea regiunii de select ie a rezultatelor de la o sfera la un elipsoid,
adaptandu-se mult imii de documente relevante. Acest lucru este ilustrat
schematic n Figura 6.3.
6.3 Support Vector Machines
Motivat i de succesul implementarii tehnicilor de nvat are asistata de calcula-
tor (machine learning) n contextul sistemelor de indexare dup a cont inut,
algoritmii de clasicare si-au gasit aplicabilitate si n cazul tehnicilor de re-
levance feedback. Astfel, problema mbunatat irii performant elor sistemului
de cautare pe baza utilizarii informat iei furnizate de utilizator este transfor-
mat a ntr-o problema clasica de clasicare.
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 67
Documentele marcate ca ind relevante si respectiv nerelevante sunt fo-
losite pentru antrenarea unui anumit clasicator care sa permit a catalogarea
datelor n una dintre cele doua clase: documente relevante si respectiv do-
cumente nerelevante. Mai departe, documentele din baza sunt trecute prin
clasicator si vor astfel re-alocate uneia dintre cele doua clase. Practic,
informat ia de la utilizator este folosita pe post de ground truth
2
pentru
determinarea unui set de reguli care sa permita partit ionarea datelor n cele
doua clase de relevant a.

In urma clasicarii, datele vor primi un nou rang
calculat n funct ie de un grad de relevant a atribuit de clasicator, ceea ce
conduce global la ranarea rezultatelor init iale.
Dintre tehnicile de clasicare a datelor cel mai frecvent ntalnite n con-
textul de relevance feedback putem ment iona: Support Vector Machines
(SVM), k-Nearest Neighbors (kNN) sau arborii de decizie (ca de exemplu
Random Forests). Pentru mai multe detalii relativ la tehnicile de clasi-
care a datelor cititorul se poate raporta la [Ionescu 09] [Witten 05] (vezi si
explicat ia din Sect iunea 4.2).

In cele ce urmeaza ne vom limita la prezentarea unuia dintre algoritmii


de clasicare foarte populari care s-a dovedit ecient n rezolvarea diferitelor
probleme de indexare a cont inutului multimedia si anume Support Vector
Machines.
Support Vector Machines (SVM) realizeaza clasicarea datelor prin con-
struct ia unui hiperplan
3
ce separa n mod optimal datele de intrare n doua
categorii [Welling 05]. Aceasta este o problema de clasicare liniara. Avand
n vedere ca exista o multitudine de hiperplane ce pot separa datele, SVM
restrict ioneaza cautarea la acele hiperplane ce permit o separare maxima
ntre cele doua clase (maximizarea marginii dintre date).
Cu alte cuvinte, se cauta hiperplanul cu proprietatea ca acesta sa maxi-
mizeaze distant a fat a de cel mai apropiat punct din spat iul de caracteristici.
Acesta este denumit hiperplanul marginii maximale (maximum-margin
hyperplane). Un exemplu este prezentat n Figura 6.4.(a) unde spat iul de
caracteristici este separat de hiperplanul H
1
ce nu permite separarea datelor,
hiperplanul H
2
care are o margine redusa si respectiv hiperplanul H
3
ce ma-
ximizeaza separarea dintre clase (vezi distant ele fat a de cele mai apropiate
puncte).
Formalizarea problemei de clasicare abordata de SVM este urmatoarea:
2
vezi nota de subsol 9.
3
un hiperplan este un concept folosit n domeniul algebrei liniare pentru a generaliza
not iunea de linie - folosita n geometria Euclidiana a planului, sau de plan - folosita n
geometria Euclidiana tridimensionala, pentru cazul n-dimensional, cu n > 3.
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 68
av and la dispozit ie un set de date de antrenare, D, constituit ca ind:
D = {(X
i
, c
i
)|X
i
R
n
, c
i
{1, 1}} (6.5)
unde X
i
este un vector ndimensional (de exemplu descriptorul datelor),
c
i
indica clasa din care face parte vectorul X
i
(valori etichete 1 si 1), i
reprezinta indicele vectorului curent, cu i = 1, ..., p, iar p reprezinta numarul
de vectori considerat i; se cauta hiperplanul marginii maximale ce permite
separarea punctelor din clasa c
i
= 1 de cele din clasa c
i
= 1 (vezi Figura
6.4.(b)).
x
1
x
2
H
3
H
2
H
1
w
x

-

b

=

0
w
x

-

b

=

1
w
x

-

b

=

-
1
x
1
x
2
2
||w||
b
w
clasa 1
clasa -1
( ) a (b)
Figura 6.4: Principiul SVM (cercurile reprezinta vectorii de caracteristici,
X
1
si X
2
formeaza spat iul de caracteristici): (a) exemple de hiperplane de
separare a datelor, (b) hiperplanul marginii maximale n cazul a doua clase
(surs a exemple Wikipedia).
Un hiperplan oarecare poate denit ca un set de puncte X ce satisfac
urm atoarea relat ie:
W X b = 0 (6.6)
unde W reprezinta un vector normal (perpendicular pe hiperplan), repre-
zinta produsul scalar iar parametrul
b
||W||
va deni decalajul hiperplanului
fat a de originea axei de coordonate, de-a lungul vectorului W (vezi Figura
6.4.(b)).

In scopul denirii marginii maximale, cautam valorile lui W si b astfel


ncat acestea sa maximizeze distant a dintre hiperplanele paralele, cele mai
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 69
departate, dar care nca separa datele. Acestea sunt date de ecuat iile:
W X b = 1 (6.7)
W X b = 1 (6.8)
Distant a dintre acestea este
2
||W||
, astfel ca problema maximizarii se tran-
sforma ntr-o problema de minimizare a valorii ||W||. De asemenea, pen-
tru a preveni ca punctele sa se gaseasca pe margini, se folosesc o serie de
constrangeri suplimentare, astfel marginea maximala este determinata de
condit iile urmatoare:
W X
i
b 1, X
i
c
1
(6.9)
W X
i
b 1, X
i
c
1
(6.10)
sau
c
i
(W X
i
b) 1 (6.11)
pentru oricare i [1; p].
Transformata ntr-o problema de optimizare, clasicarea SVM poate
enunt ata astfel: alege parametrii W si b astfel ncat sa minimizeze valoarea
||W|| cu constrangerea ca: c
i
(W X
i
b) 1, pentru oricare i. Aceasta cla-
sicare este valabil a totusi doar n cazul n care datele sunt liniar separabile.

In realitate, mai ales n contextul descriptorilor de cont inut multimodali, este


put in probabil ca separarea acestora sa se poata realiza liniar.
Pentru a crea un clasicator SVM neliniar, la maximizarea marginii din-
tre clase se folosesc ceea ce numim funct ii nucleu sau kernel functions.
Operat iile denmult ire scalara sunt nlocuite acum de nuclee de funct ii nelini-
are, k(X, X

) unde X si X

sunt doi vectori.



In acest fel, hiperplanul marginii
maximale va potrivit datelor ntr-un spat iu de caracteristici transformat
neliniar. Dintre nucleele cel mai frecvent folosite putem ment iona:
nucleu polinomial omogen:
k(X, X

) = (X X

)
d
(6.12)
unde d este un numar ntreg;
nucleu polinomial neomogen:
k(X, X

) = (X X

+ 1)
d
(6.13)
funct ie radiala:
k(X, X

) = exp(||X X

||
2
) (6.14)
unde > 0;
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 70
funct ie radiala Gaussiana:
k(X, X

) = exp
_

||X X

||
2
2
2
_
(6.15)
unde
2
reprezinta variant a statistica;
funct ie sigmoida:
k(X, X

) = tanh( X X

+ c) (6.16)
unde tanh(.) reprezinta tangenta hiperbolica, > 0 iar c < 0.
Cu toate ca SVM este un clasicator binar, acesta poate folosit cu
succes pentru a rezolva probleme de clasicare multi-clasa specice indexarii
dup a cont inut. Una dintre metodele cele mai uzuale consta n transformarea
clasicarii multi-clasa ntr-o succesiune de clasicari binare [Kotsiantis 07]
(de exemplu folosind clasicatori binari ce clasica o clasa fat a de toate
celelalte - one-versus-all, sau care clasica ecare pereche de clase - one-
versus-one).

In cele ce urmeaza vom prezenta un studiu comparativ al performant elor


a o serie de algoritmi de relevance feedback n contextul unei cautari de
imagini folosind descriptori de cont inut. Algoritmii vizat i sunt: Rocchio,
Relevance Feature Estimation, Support Vector Machines (SVM), arbori de
decizie (TREE), AdaBoost (BOOST), Random Forests si clasicare ierarhica
[Mironica 12b]. Testele sunt efectuate folosind o baza o-line si anume
Microsoft Object Class Recognition
4
ce cont ine imagini cu 23 de categorii
de obiecte (de exemplu animale, persoane, avioane, masini si asa mai de-
parte). Cautarea presupune identicarea tuturor imaginilor ce cont in un
anumit obiect furnizat de utilizator.
Rezultatele sunt prezentate n Figura 6.5. Gracele ilustreaza perfor-
mant a cautarii pe baza valorii MAP (Mean Average Precision, vezi Sect iune
8; reprezentata pe axa oY - valoarea maxima este 100 ce indica o performant a
de 100%) raportata la numarul de sesiuni de feedback ale utilizatorului
(axa oX; vezi explicat ia de la nceputul Sect iunii 6). Rezultatele prezentate
sunt obt inute folosind descriptori de culoare clasici (vezi Sect iune 3.1).
Ceea ce se observa imediat este faptul ca performant a cautarii creste
semnicativ cu numarul sesiunilor de feedback, de exemplu cu p ana la
20% n cazul metodei de clasicare ierarhica (comparat cu rezultatele din
prima sesiune). De asemenea, comparativ cu rezultatele obt inute fara a aplica
4
vezi nota de subsol 1.
CAPITOLUL 6. TEHNICILE DE TIP RELEVANCE FEEDBACK 71
descriptori MPEG-7 (baz Microsoft)
1 2 3 4
0
20
40
60
80
100
M
A
P
fr RF
Rocchio
RFE
SVM
BOOST
RF
TREE
ierarhic
num r de sesiuni de feedback
Figura 6.5: Compararea performant elor tehnicilor de relevance feedback
n contextul cautarii de imagini [Mironica 12b] (notat iile sunt explicate n
text).
relevance feedback, performant a sistemului se poate dubla pentru o singura
sesiune sau chiar ajunge la o performant a de peste 80% dupa mai multe
sesiuni, ceea ce este ntradevar un rezultat relevant. Cresterea semnicativa
a performant ei se realizeaza de regula pentru primele sesiuni de feedback,
n general dupa prima sesiune, urmand sa se diminueze progresiv cu cresterea
numarului de sesiuni. De exemplu, clasicarea ierarhica furnizeaza o crestere
a performant ei cu 31% n prima sesiune (fat a de cautarea f ara relevance
feedback) si apoi doar de 7% (fat a de prima sesiune) si de 4% fat a de a
doua sesiune.
Din punct de vedere al metodelor, n ciuda superioritat ii clare a unor
abordari fat a de altele, nu putem trage o concluzie generala, rezultatele
ind de regul a dependente de baza de test si de sistemul de indexare folo-
sit.

In exemplul ilustrat, metoda de clasicare ierarhica urmata de estimarea
important ei atributelor (RFE) furnizeaza performant ele cele mai ridicate.
CAPITOLUL 7
Vizualizarea cont inutului multimedia
Vizualizarea cont inutului datelor multimedia este la randul ei o problema ce
trebuie luata n calcul. Aceasta este integrata sistemului de navigare (vezi
Sectiunea 2).

In contextul imaginilor, dicultatea vizualizarii datelor t ine n cea mai


mare parte de volumul de date ridicat ce trebuie accesat, cont inutul unei ima-
gini putand reprezentat simplu prin reprezentarea acestuia la o rezolut ie
scazuta (de exemplu pe baza de miniaturi). Astfel, o baza de imagini poate
vizualizata ecient prin vizualizarea miniaturilor imaginilor din aceasta sub
form a de planse.

In Figura 7.1 am prezentat ca exemplu modul de vizuali-
zare folosit de platforma de c autare Flickr
1
. Se observa faptul ca informat ia
furnizata poate analizata foarte rapid de utilizator, timpul necesar ind de
ordinul zecilor de secunde.

In contextul secvent elor de imagini, pe langa volumul mare de date se


mai adauga si problema vizualizarii cont inutului video dinamic. Este evi-
dent faptul ca vizualizarea n parte a ecarei secvent e este aproape imposi-
bil a iar reprezentarea acestora cu o singura imagine este nerelevanta deoarce
nu surprinde informat ia denitorie care t ine de cont inutul de miscare si de
evolut ia n timp. O solut ie la aceasta problema consta n folosirea de rezu-
mate de cont inut ce reprezinta practic modalitat i de reprezentare compacta
a cont inutului, atat vizual cat si temporal.
Tehnicile de rezumare automata a cont inutului video [Truong 07] vizeaza
doua categorii de rezumat, si anume rezumatul n imagini (static) ce re-
1
http://www.flickr.com/search/?q=Tour+Eiffel&z=t
73
CAPITOLUL 7. VIZUALIZAREA CONT INUTULUI MULTIMEDIA 74
Figura 7.1: Exemplu de vizualizare a cont inutului unei colect ii de imagini
pe platforma Flickr (rezultate obt inute n urma cautarii de imagini cu Tour
Eiel).
prezinta o colect ie de imagini reprezentative si rezumatul n miscare (dina-
mic), ce reprezinta o colect ie de pasaje reprezentative ale secvent ei. Rezu-
matele de cont inut permit utilizatorului sa-si faca rapid o idee globala asu-
pra cont inutului secvent ei. Astfel, rezumatul static permite reprezentarea
cont inutului vizual al secvent ei n doar cateva imagini (de exemplu cate o
imagine pentru ecare scena reprezentativa), ce sunt usor accesibile utiliza-
torului prin sistemul de navigare, timpul de vizualizare ind neglijabil. Pe de
alt a parte, rezumatul dinamic aduce un plus de informat ie la nivelul act iunii
prezente n secvent a, informat ie ce nu este disponibil a n rezumatul static.
Totusi, ind el nsusi o secvent a, n funct ie de nivelul de detaliu furnizat, tim-
pul necesar vizualizarii acestuia este mai ridicat decat n cazul rezumatului
static, dar net inferior timpului de vizualizare integrala a secvent ei (un exem-
plu sunt rezumatele de tip trailer care tind sa surprinda doar cont inutul
de act iune).
Pe l anga aspectul vizualiz arii propriu-zise a datelor, asa cum am enunt at
si anterior, principala problema a vizualizarii colect iilor multimedia este data
de necesitatea parcurgerii unui volum semnicativ de date, indiferent daca
CAPITOLUL 7. VIZUALIZAREA CONT INUTULUI MULTIMEDIA 75
este vorba de imagini sau video.

In cele ce urmeaza vom trece n revista
cateva sisteme de navigare multimedia ce ntegreaza tehnici inteligente de
reprezentare a cont inutului datelor:
MediaTable [Rooij 10] (vezi Figura 7.2): permite categorizarea imagi-
nilor si secvent elor video. Sistemul foloseste o vizualizare tabulara ce
permite o vedere de ansamblu asupra colect iei multimedia si a descrieri-
lor textuale atasate cat si o serie de interfet e grace ce permit sortarea,
ltrarea, selectarea si vizualizarea documentelor.
Figura 7.2: Sistemul MediaTable [Rooij 10].
Figura 7.3: Sistemul 3D MARS [Nakazato 01].
CAPITOLUL 7. VIZUALIZAREA CONT INUTULUI MULTIMEDIA 76

In Figura 7.2 este ilustrat un exemplu de vizualizare a datelor dupa


cont inut. Gracul din colt ul din dreapta sus reprezinta o harta a
distribut iei tuturor documentelor din baza n timp ce imaginea din
colt ul dreapta jos detaliaza cont inutul documentului selectat curent.
3D MARS [Nakazato 01] (vezi Figura 7.3): permite vizualizarea colec-
t iilor de imagini folosind un sistem de reprezentare 3D de tip realitate
virtual a. Imaginile sunt reprezentate n funct ie de cont inutul de cu-
loare, textura si respectiv structural (un exemplu este prezentat n
imaginile din Figura 7.3).
MediaMill Forkbrowser [Rooij 08] (vezi Figura 7.4): foloseste un sistem
de vizualizare intercalata atat a rezultatelor cautarii video c at si a
cont inutului temporal. Pe axa de adancime spre partea superioara
sunt reprezentate rezultatele unei anumite cautari, pe axa orizontala
este prezentat cont inutul temporal al unui segment al secvent ei curente
(timeline), pe axele diagonale sunt ilustrate succesiuni de plane video
al caror cont inut este similar cu imaginea vizualizata curent n centru
(similarity threads) iar pe axa de adancime n partea de jos este
prezentat istoricul caut arilor (history).
Figura 7.4: Sistemul MediaMill: Forkbrowser [Rooij 08].
Reprezentare 3D cilindrica [Schoemann 11] (vezi Figura 7.5): permite
reprezentarea colect iilor de imagini sub forma unor reprezentari de tip
storyboard ilustrate folosind o reprezentare cilindrica 3D. Diferite
categorii de imagini sunt reprezentate folosind cilindrii diferit i, utili-
zatorul putand selecta categoria dorita. Pentru vizualizarea curenta,
imaginile prezentate n prim plan sunt reprezentate detaliat n timp
ce imaginile din fundal sunt reprezentate schematic. Folosind interfat a
CAPITOLUL 7. VIZUALIZAREA CONT INUTULUI MULTIMEDIA 77
graca, utilizatorul poate derula imaginile rulate pe cilidru cat si deta-
lia o anumita regiune a cilindrului.
Figura 7.5: Sistem de reprezentare 3D cilindrica [Schoemann 11].
Figura 7.6: Sistemul MovieGlobe [Ionescu 12a].
CAPITOLUL 7. VIZUALIZAREA CONT INUTULUI MULTIMEDIA 78
Figura 7.7: Sistemul nepTunes [Knees 07].
MovieGlobe [Ionescu 12a] (vezi Figura 7.6
2
): permite reprezentarea
colect iilor multimedia de imagini si lme ntr-un spat iu 3D virtual.
Fiecare obiect multimedia este reprezentat ca un punct n acest spat iu.
Distribut ia obiectelor n spat iul 3D este realizata n funct ie de simila-
ritatea cont inutului acestora. Utilizatorul se poate deplasa virtual si
vizualiza cont inutul obiectelor ntalnite.

In Figura 7.6 este prezentat un
exemplu de reprezentare a lmelor n funct ie de gen (animat ie, sport,
lm, etc.).
nepTune [Knees 07] (vezi Figura 7.7): permite vizualizarea cont inutului
colect iilor de muzica sub forma unor peisaje 3D virtuale pe care utili-
zatorul le poate explora. Peisajele muzicale sunt adaptate automat
pe baza analizei cont inutului audio preferint elor ecarui utilizator.
2
o demonstrat ie este disponibil a la http://imag.pub.ro/
~
bionescu/index_files/
MovieGlobe.avi
CAPITOLUL 8
Evaluarea perfomant elor indexarii
Asa cum am ment ionat si n Capitolul 2.4, alaturi de problematica descrierii
eciente a cont inutului datelor cat si a conceptului de similaritate ntre date
de regul a heterogene, un aspect cel put in la fel de important il constituie
evaluarea performant elor. Cu toate ca un sistem de indexare poate funct iona
corect din punct de vedere al algoritmilor implementat i si al tehnicilor de
reprezentare a datelor, acest lucru nu implica si faptul ca rezultatele obt inute
sunt relevante pentru utilizator. Pentru validarea sistemului este necesara
evaluarea global a a performant elor acestuia, atat pentru seturi de date cat
mai diverse cat si pentru utilizatori diferit i.
Metodele existente se mpart n doua categorii: metode de evaluare su-
biectiva ce au la baza utilizatorul si respectiv metode de evaluare obiectiva
ce se bazeaza pe calculul unor masuri matematice. Acestea sunt descrise n
cele ce urmeaza.
8.1 Evaluarea subiectiva
Campanii de evaluare. Evaluarea subiectiva a performant elor implica
nsusi utilizatorul. Practic calitatea rezultatelor obt inute de sistem este eva-
luat a pe baza opiniei utilizatorilor (care pana la urma este chiar consuma-
torul produsului), ca de exemplu prin realizarea a ceea ce numim user
studies (sau campanii de evaluare).
Utilizatorului i se pun la dispozit ie rezultatele obt inute de sistem si acesta
va completa un chestionar cu privire la gradul de satisfact ie si relevant a
79
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 80
acestora relativ la datele cautate. Procesul se repeta n general pentru un
numar cat mai semnicativ de rezultate precum si pentru cat mai mult i
utilizatori. De regula, experimentele respecta un protocol bine denit si
sunt realizate n aceleasi condit ii pentru tot i utilizatorii pentru a nu exista
factori externi diferit i care sa inuent eze raspunsurile la ntrebari.

In nal,
raspunsurile obt inute relativ la performant a sistemului sunt analizate din
punct de vedere statistic si se concluzioneaza asupra performant elor medii
globale ale sistemului.
Prezentam pentru exemplicare o astfel de campanie de evaluare realizata
n cazul tehnicilor de rezumare automata de cont inut. Sistemul evaluat este
un sistem de generare automata a unui rezumat n imagini a unui document
video [Ionescu 10] (o colect ie de imagini considerate ca ind reprezentative
pentru cont inutul secvent ei respective). Avandn vedere subiectivitatea unui
astfel de proces, se doreste validarea acestuia de catre utilizatori. Primul
pas al campaniei consta n denirea protocolului de evaluare, si anume acel
algoritm pe care il vor urma utilizatorii. Denirea precisa a unui protocol
asigura n primul rand standardizarea testului prin realizarea acestuia n
acelasi mod de catre tot i participant ii la evaluare.

In cazul exemplului considerat protocolul folosit este unul simplu si consta


n urmatoarele etape: 1. vizualizarea ntr-o camera de proiect ie a secvent ei
video originale (izolarea utilizatorului de alte surse de informat ie si focali-
zarea asupra datelor evaluate), 2. prezentarea succesiva a imaginilor rezu-
matului propus (cate o imagine pe secunda), 3. completarea unui chestionar
de catre utilizator, 4. repetarea procesului pentru diverse secvent e video.
Chestionarul folosit cuprinde urmatoarele ntrebari:
ntrebarea 1 -

In ce masura estimat i ca rezumatul propus este relevant


pentru cont inutul secvent ei?. Evaluarea acestei ntrebari se realizeaza
pe o scara de valori de la 0 la 10 cu urmatoarea semnicat ie: 0 nu
stiu, 1-2 deloc, 3-4 foarte put in, 5-6 part ial, 7-8 n mare parte, 9-10 n
totalitate. Pentru ecare grad de apreciere sunt furnizate dou a niveluri;
ntrebarea 2 - Cum estimat i durata rezumatului din punct de vedere al
numarului de imagini furnizate?. Evaluarea pentru aceasta ntrebare
se realizeaza tot pe o scara de la 0 la 10 cu urmatoarea semnicat ie:
0 nu stiu, 1-2 prea scurta, 3-4 scurta, 5-6 sucienta, 7-8 ridicata, 9-10
prea lunga.

In Figura 8.1 sunt prezentate rezultatele obt inute n urma test arii rezu-
matelor pentru 10 secvent e de animat ie (sursa [CITIA 13]) de c atre un numar
de 27 de utilizatori. Gracele ilustreaza scorul mediu obt inut pentru ecare
secvent a si ntrebare n parte cat si abaterea standard a acestor rezultate (un
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 81

n ce msur estimai c rezumatul propus este


relevant pentru coninutul secvenei?

Cum estimai durata rezumatului din punct de vedere


al numrului de imagini furnizate?
val. medie
nu tiu
val. medie
nu tiu
abatere std.
abatere std.
Figura 8.1: Exemplu de rezultate ale unei campanii de evaluare a
performant ei n cazul metodei propuse n [Ionescu 10] (axa oX corespunde
secvent elor testate, axa oY corespunde scorului mediu furnizat de utiliza-
tori, segmentele verticale ilustreaza abaterea standard, barile gri reprezinta
numarul de raspunsuri nu stiu furnizate de utilizatori).
indicator al gradului de dispersie al raspunsurilor pentru utilizatori diferit i
si implicit al subiectivitat ii - cu cat aceasta valoare este mai mare cu atat
raspunsurile furnizate de utilizatori au fost mai diferite).
Ceea ce se observa imediat este faptul ca rezultatele sunt dependente atat
de utilizator cat si de date. De exemplu, exista situat ii n care utilizatorii nu
pot furniza un raspuns relevant, de exemplu pentru secvent a La Cancion du
Microsillon numarul de raspunsuri nu stiu este semnicativ (11 din 27);
sau dispersia raspunsurilor este foarte ridicata ceea ce atest a un nivel ridicat
de subiectivitate, de exemplu pentru secvent a Le Moine et le Poisson unde
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 82
abaterea standard este de 2.3.
Totusi, pe baza acestor date se poate concluziona la nivel global relativ la
calitatea rezultatelor sistemului, n acest exemplu tehnica de rezumare pro-
pusa obt inand lantrebarea 1 un scor mediu global de 6.9, ceea ce corespunde
faptului ca este capabil a sa reprezinte n mare parte cont inutul original;
cat si un scor mediu global de 6.1 la ntrebarea 2 ceea ce corespunde faptului
ca durata rezumatului propus tinde sa e adecvata.
Crowd-sourcing. O alternativa actuala la realizarea zica de campanii
de evaluare o constituie folosirea mediului on-line si anume a Internetului.
Una dintre dicultat ile principale ale unei campanii de evaluare o constituie
dicultatea de a dispune de un numar semnicativ de utilizatori la un anumit
moment de timp ntr-o anumita locat ie. Astfel ca o solut ie mai ecienta o
constituie organizarea campaniei on-line, utilizatorii neind restrict ionat i a
prezent i zic si putand realiza evaluarea la momentul dorit n funct ie de
disponibilitatea lor de timp. Mai mult, participarea on-line permite accesarea
unui numar semnicativ de utilizatori din toata lumea.
Un domeniu aparte si gaseste n prezent aplicat ie n contextul sisteme-
lor de evaluare a performant elor algoritmilor multimedia si anume acela de
crowd-sourcing. Cu toate ca dezvoltarea crowd-sourcing nu este legata
de acest context, ind dezvoltata n principal pentru realizarea unei struc-
turi de prestare de servicii la distant a - conceptul de crowd-sourcing ind
denit ca procesul de formulare a unei anumite sarcini de lucru, divizarea
acesteia n micro-sarcini ce pot realizate foarte usor si rapid de personal
necalicat si distribuirea acestora spre rezolvare catre un grup necunoscut
de utilizatori de pe Internet - posibilitatea de a accesa un numar practic
nelimitat de utilizatori face din aceasta un candidat ideal pentru evaluarea
subiectiva.

In prezent domeniul de crowd-sourcing se stabileste ca domeniu de


sine statator asociat metodelor de analiza multimedia. Tot mai multe studii
dovedesc faptul ca rezultatele obt inute n urma crowd-sourcing pot com-
parabile cu cele obt inute de utilizatori expert i [Nowak 10]. Totusi sistemul
de crowd-sourcing nu este perfect si nu orice evaluare poate proiectata
prin intermediul crowd-sourcing.
Principala problema este data de controlul calitat ii rezultatelor. Daca
n cazul campaniilor de evaluare utilizatorii sunt alesi astfel nc at sa e
familiarizat i cu domeniul precum si sa e motivat i n a furniza o evaluare
de calitate (voluntar, n interes de cercetare, eventual remunerat), n cazul
crowd-sourcing nu exista un control direct asupra alegerii utilizatorilor iar
calitatea rezultatelor nu poate controlatan mod direct, participant ii la stu-
diu ind motivat i n principal de un castig nanciar asociat ecarei sarcini de
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 83
rezolvat care este extrem de redus (exemplu 4$ pe ora). Din perspectiva or-
ganizarii evaluarii, singurul mecanism de crestere a calitat ii evaluari este dat
de modul de concepere al evaluarii care trebuie sa e unul intuitiv, simplu,
rapid si atractiv pentru utilizator.
Dintre platformele de crowd-sourcing existente una dintre cele mai po-
pulare este Amazon Mechanical Turk
1
. Aceasta este totusi limitata n a
accesibil a doar pentru persoane (requesters - persoanele care formuleaza
sarcinile ce trebuiesc rezolvate de utilizatori) care au coordonate bancare n
Statele Unite. O alternativa la aceasta este platforma este Crowdower
2
.
Cererile de lucru create n Crowdower pot publicate pe diverse canale de
crowd-sourcing ce includ si platforma Amazon Mechanical Turk.

In ceea ce priveste controlul calitat ii, exista o serie de facilitat i care t in


mai mult de modul de alegere al utilizatorilor decat de evaluarea acestora.
De exemplu, n cazul platformei Amazon Mechanical Turk se poate opta
pentru a alege utilizatori din anumite locat ii geograce, alege utilizatori n
funct ie de performant a acestora dovedita n alte sarcini efectuate anterior
(cel mai probabil n domenii complet diferite) sau pe baza numarului de
sarcini realizate anterior. Exista si posibilitatea de refuzare a rezultatelor
considerate nesatisfacatoare fara a implica costuri suplimentare.

In cazul
platformei Crowdower aceasta introduce conceptul de gold units prin care
ncearca sa elimine utilizatorii cu performant e slabe precum si posibilitatea
de generare de raspunsuri automate sau aleatorii. Practic, utilizatorilor li se
cere sa raspunda la cel put in 4 ntrebari al caror raspuns este deja cunoscut
de sistem si doar n cazul n care obt in o precizie de minim 70% raspunsurile
acestora la sarcina curenta de rezolvat sunt luaten calcul.

In cazul platformei
Crowdower nu exista posibilitatea de a refuza raspunsurile considerate ca
ind nerelevante.
Indiferent de modul de implicare al utilizatorilor n procesul de evaluare,
acest mod de abordare presupune un anumit grad de subiectivitate. Persoane
diferite pot percepe diferit anumite informat ii (vezi si exemplul din Figura
8.1). Astfel, se pune problema gasirii unei modalitat i de evaluare a gradului
de subiectivitate dintre evaluarile furnizate de utilizatori, informat ie ce este
de regul a furnizata impreuna cu rezultatele obt inute.
Una dintre abordarile cele mai frecvent folosite consta n evaluarea gra-
dului de concordant a dintre evaluarile realizate de utilizatori diferit i pentru
aceleasi date, ceea ce se numeste inter-annotator agreement. Prezentamn
continuare modul de calcul al coecientului Kappa [Carletta 96] ce reprezinta
1
https://www.mturk.com/mturk
2
http://crowdflower.com
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 84
o m asura statistica a concordant ei dintre raspunsurile furnizate de utiliza-
tori diferit i. Spre deosebire de alte marimi similare, coecientul Kappa ia n
calcul si concordant a rezultatelor obt inuta din ntamplare (aleator).
S a consideram cazul a doi utilizatori care evalueaza un numar de N en-
titat i ca apart inand a C categorii (categoriile considerate sunt complemen-
tare). De exemplu poate vorba de etichetarea a N imagini ca ind relevante
sau nerelevante (C = 2 n acest caz).

In acest caz coecientul Kappa este
dat de relat ia urmatoare:
=
Pr(a) Pr(e)
1 Pr(e)
(8.1)
unde Pr(a) reprezinta probabilitatea observata relativa de concordant a ntre
utilizatori iar Pr(e) reprezinta probabilitatea ipotetica de concordant a dato-
rat a ntampl arii. Daca raspunsurile utilizatorilor sunt n concordant a com-
plet a atunci valoarea lui este 1 iar similar, daca exista o disconcordant a
total a ntre raspunsuri este 0.

In realitate o valoare a lui superioara a
0.6 este considerata ca ind perfecta.
Pentru exemplicare sa consideram urmatoarele date (sursa Wikipedia):
avem la dispozit ie 50 de propuneri de proiecte de cercetare ce sunt evaluate
ecare de cate doi evaluatori (notat i A si respectiv B). Acestia atribuie pro-
punerilor categoria da sau nu (semnicand acceptarea acestora pentru
nant are sau nu). Presupunand ca datele obt inute sunt cele prezentate n
Tabelul 8.1 (numerele corespund numarului de proiecte pentru care evalua-
torii au furnizat raspunsul da sau nu) atunci probabilitat ile Pr(a) si Pr(e)
sunt estimate n felul urmator:
Pr(a): evaluatorii A si B au acordat impreuna calcativul da pentru
20 de proiecte si respectiv nu pentru 15 proiecte astfel ca probabili-
tatea de concordant a a raspunsurilor este Pr(a) = (20 + 15)/50 = 0.7;
Tabelul 8.1: Exemplu de calcul al coecientului Kappa (sursa Wikipedia).
B B
da nu
A da 20 5
A nu 10 15
Pr(e): n acest caz se observa urmatoarele: evaluatorul A a raspuns
da pentru 25 de proiecte si nu tot pentru 25 ceea ce nseamna
ca evaluatorul A raspunde cu da pentru 50% din cazuri. Similar,
evaluatorul B a raspuns da pentru 30 de proiecte si nu pentru 20
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 85
ceea ce nseamna ca evaluatorul B raspunde cu da pentru 60% din
cazuri.
Probabilitatea ca cei doi evaluatori sa raspunda cu da n mod aleator
este 0.5 0.6 = 0.3 iar probabilitatea ca ambii sa raspunda cu nu este
0.5 0.4 = 0.2. Astfel, per total probabilitatea de concordant a aleatoare
este 0.3 + 0.2 = 0.5.
Aplicand relat ia anterioara obt inem n acest caz un coecient Kappa de 0.4
care indica o concordant a relativ scazuta a rezultatelor.
8.2 Evaluarea obiectiva
O alta abordare a problemei evaluarii performant ei sistemelor de indexare
dup a cont inut o constituie metodele de evaluare asa zisa obiectiva. Aces-
tea se bazeaza pe evaluarea performant elor cuanticand erorile de cautare
cu diverse masuri statistice matematice. Pentru a putea evalua o masura
de eroare este necesara cunoasterea apartenent ei datelor la clasele cautate
(datele sa e etichetate) sau cu alte cuvinte ground truth.
Avand n vedere faptul ca este practic imposibil sa dispunem de ground
truth n cazul unei baze de date dinamice (de exemplu de pe Internet) sau
chiar de dimensiune semnicativa, lucru ce ar face procesul de cautare inutil
at ata timp cat datele sunt deja cunoscute, validarea obiectiva se realizeaza
preliminar folosind seturi de date de test. Sistemul se calibreaza astfel pentru
performant a optimala folosind aceste baze de test urmand a implementat
practic ulterior n contextul real. Pentru ca rezultatele unui astfel de proces
de evaluare sa e relevante la scara reala, seturile de date folosite trebuie sa
e reprezentative si cat mai diverse.
Ca ordin de masura, n contextul actual, bazele de test pentru sistemele
de c autare dupa cont inut a imaginilor tind sa cont ina pana la milioane de
imagini n timp ce n contextul video acestea sunt de ordinul sutelor de
mii. Principala limitare este data de efortul necesar etichetarii acestora ce
presupune analiza lor manuala de catre expert i umani. De exemplu, daca
dorim validarea unui sistem de cautare a secvent elor de gol ntr-o baza video
de nregistrari de fotbal, ecare dintre secvent e trebuie parcursa manual si
etichetate momentele de timpn care apar secvent ele cautate. Pe baza acestor
date, rezultatele obt inute de sistemul de cautare automata pot comparate
cu rezultatele ideale obt inute manual.

In literatura de specialitate exista o multitudine de abordari propuse pen-


tru evaluarea obiectiva a performant elor, pentru o descriere exhaustiva a
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 86
acestora cititorul se poate raporta la [Manning 08].

In cele ce urmeaza vom
detalia unele dintre abordarile cele mai frecvent ntalnite.
8.2.1 Precision-Recall
Dac a analizam problema cautarii datelor din perspectiva unui sistem de cla-
sicare (vezi exemplu Sect iune 4.2) si anume, rezultatele obt inute n urma
cautarii corespund de fapt unei clasicari binare a datelor existente, acestea
ind etichetate e ca apart inand clasei obiectului cautat (query, clasa A),
e ca apart inand celorlalte clase existente (clasa B), atunci erorile de cautare
pot sintetizate n modul urmator (vezi Tabel 8.2):
tp sau true positive: reprezinta obt inerea unui rezultat corect si
anume obiectul returnat de sistem a fost prezis ca apart inand clasei
A (clasa cautata) acesta corespunzand si n realitate clasei A;
fp sau false positive: reprezinta obt inerea unui rezultat fals si anume
obiectul returnat de sistem a fost prezis ca apart inand clasei A dar n
realitate acesta corespunde unui obiect din clasa B ceea ce conduce la
o predict ie falsa;
Tabelul 8.2: Erori statistice n cazul clasicarii datelor.
clasa reala
clasa A clasa B
clasa prezisa
clasa A tp (true positive) fp (false positive)
clasa B fn (false negative) tn (true negative)
fn sau false negative: reprezinta obt inerea tot a unui rezultat fals
si anume sistemul a prezis ca obiectul returnat apart ine clasei B n
realitate acesta ind din clasa A fapt ce conduce la o non-detect ie,
obiectul A (din clasa cautata) ind pierdut;
tn sau true negative: reprezinta prezicerea rezultatului ca ind un
obiect din clasa B n masura n care acesta este n realitate tot din
clasa B aceasta situat ie ind o conrmare a absent ei obiectului cautat
de tip A.
Cu alte cuvinte, n urma cautarii se pot obt ine doua situat ii de eroare:
obiectul cautat este estimat eronat ca ind un obiect din alta clasa, eroare
cuantizata de raportul fp; si respectiv obiectul cautat nu este gasit, situat ie
cuantizata de raportul fn.
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 87
Pe baza acestor erori sunt denite masurile de performant a numite precision
si recall astfel:
precision =
tp
tp +fp
, recall =
tp
tp +fn
(8.2)
Denite n acest fel, precision este o masura a falselor detect ii iar recall o
masura a non-detect iilor. Plaja de valori a acestora se gaseste n intervalul
[0; 1] unde 1 reprezinta cazul ideal n care nu exista nici o falsa detect ie
(fp = 0) si respectiv toate documentele existente n baza au fost gasite
(fn = 0). Se poate observa faptul ca valoarea tp + fn este o constanta
si reprezinta numarul total de obiecte de tip A existente n baza de date
(numarul celor identicate corect + numarul celor care nu au fost returnate).
Daca analizam problema cautarii datelor din perspectiva unui sistem de
indexare clasic n care rezultatele cautarii sunt reprezentate n ordinea des-
crescatoare a relevant ei acestora relativ la obiectul cautat (vezi exemplu
Sect iune 6) atunci modul de calcul al precision si recall este un pic dife-
rit. Diferent a provine din faptul ca evaluarea performant ei se realizeaza de
aceasta data pe un set de rezultate ordonate si care nu reprezinta neaparat
toate documentele disponibile din baza de date (se pot returna doar o parte
din acestea n urma cautarii - de exemplu n cazul bazelor de date de pe
Internet rezultatele cautari sunt limitate la un numar ce poate gestionat
de utilizator).

In acest context, precision este o masura a procentului din documentele


returnate ce sunt relevante pentru obiectul cautat (query):
precision =
|{documente relevante} {documente returnate}|
|{documente returnate}|
(8.3)
unde operatorul |.| returneaza numarul de elemente ale unei mult imi.
Similar, recall este o masura a procentului de documentele relevante pen-
tru obiectul cautat ce au fost returnate n urma cautarii si anume:
recall =
|{documente relevante} {documente returnate}|
|{documente relevante}|
(8.4)
Dat ind faptul ca aceste masuri sunt evaluate pentru o anumita cautare
particulara, pentru a obt ine o masura globala de performant a de regula se
calculeaza valorile medii ale acestora pentru un anumit numar de c autari.
Dac a baza de date este cunoscuta, atunci se poate realiza o evaluare exhaus-
tiva n care ecare document din baza este folosit pentru a specica cererea
de cautare iar performant a sistemului este estimata ca valoare medie pentru
toate cautarile efectuate.
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 88
8.2.2 F-measure
Avand n vedere cele doua situat ii de eroare ce trebuiesc luate n calcul pen-
tru evaluarea performant elor indexarii si anume numarul de false detect ii si
respectiv numarul de non-detect ii, se pune problema care dintre acestea este
mai importanta. Astfel, de exemplu un sistem de indexare care furnizeaza
precision de 95% si recall de 80% este preferabil unui sistem ce furnizeaza
recall de 95% si respectiv precision de 80%? Cu alte cuvinte, care dintre cele
doua situat ii sunt mai dezavantajoase, un sistem n care rata de documente
relevante returnate este mai mare (numar de false detect ii redus) iar numarul
total de documente relevante returnate din numarul total existent n baza
este mai mic (numarul de non-detect ii mai mare), sau situat ia inversa?

In realitate, raspunsul depinde strict de domeniul de aplicat ie. Figura


8.2 prezinta estimativ important a celor doua masuri pentru o serie de do-
menii de aplicat ie [Worring 12]. Astfel, daca consideram ca domeniu de
aplicat ie cautarea datelor pe Internet atunci cel mai important parametru
este precision deoarece se doreste ca rezultatele cautarii sa e cat mai pre-
cise.

In acelasi timp nu este la fel de important faptul ca n urma cautarii
nu obt inem toate rezultatele relevante existente, n cazul Internetului acesta
ind un numar practic nelimitat, ci este sucienta obt inerea a unei sub-
mult imi a acestora. Este cunoscut faptul ca n practica n urma cautarii
ntr-un sistem on-line ne limitam de regula n a analiza doar primele cateva
zeci de rezultate.
precision
recall
Internet
Arhive
Cercetare
Supraveghere video
Criminalistic
Informaie
Figura 8.2: Gradul de important a al precision si recall n funct ie de domeniul
de aplicat ie (bazat pe informat iile prezentate n [Worring 12]).
Pe de alta parte, daca consideram ca domeniu de aplicat ie un sistem spe-
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 89
cic expertizei criminalistice, de exemplu un sistem de identicare a ampren-
telor, n acest caz este mai important parametrul de recall. Cu alte cuvinte,
este mai important ca sistemul sa e capabil sa returneze toate documentele
relevante existente n baza de date chiar daca numarul de detect ii false este
ridicat. Acestea pot reduse ulterior printr-o analiza manuala a rezultatelor
dar absent a unor documente relevante pentru cautare din rezultate nu mai
poate corectata.

In acest context, n literatura de specialitate exista un parametru care


combina contribut ia celor doua masuri si anume F measure. Acesta este
denit astfel:
F measure = (1 +
2
)
precision recall

2
precision +recall
(8.5)
unde reprezinta un parametru de reglaj al contribut iei celor doua masuri.

In funct ie de valoarea lui , Fmeasure poate evident ia mai mult contribut ia


uneia dintre cele doua masuri permit and adaptarea evaluarii la domeniul de
aplicat ie.
Daca = 1 atunci precision si recall au ponderi egale ceea ce conduce
la marimea F1 score denita ca ind media armonica dintre precision si
recall, astfel:
F1 score = 2
precision recall
precision +recall
(8.6)
8.2.3 Curba de precision-recall si ROC
Avand n vedere faptul ca de regula sistemele de indexare returneaza re-
zultatele n ordinea descresc atoare a relevant ei fat a de cererea de cautare
(ranking), valorile estimate pentru precision si recall sunt dependente de
dimensiunea ferestrei de analiza a rezultatelor returnate. De exemplu, nu
este acelasi lucru daca evaluam performant a pentru 100 de rezultate retur-
nate sau pentru 200, n cazul din urma ind mai probabil ca numarul de
rezultate corecte sa e mai mare.
Se pune astfel problema evaluarii performant ei pentru puncte de operare
(operating points) diferite. Una dintre modalitat ile cele mai frecvent fo-
losite este accea de a reprezenta grac precision n funct ie de recall pentru
toat a plaja de dimensiuni a ferestrei de rezultate pana n punctul n care n
aceasta se regasesc toate datele cautate existente n baza de date.
Algoritmul de generare este urmatorul: pentru o anumita cautare n baza
de date se considera doar primele N
i
rezultate obt inute, valoare astfel aleasa
ncat ntre acestea sa se gasesca exact i rezultate corecte. Valoarea lui i va
varia de la 1 la tp+fn (vezi ecuat ia 8.2), si anume pana n momentul n care
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 90
reg asimn fereastra considerata toate rezultatele corecte existente n baza de
date.

In aceste condit ii, precision si recall se evalueaza n felul urmator:


precision =
1
N
1
,
2
N
2
, ...,
i
N
i
, ...,
tp +fn
N
tp+fn
recall =
1
tp +fn
,
2
tp +fn
, ...,
i
tp +fn
, ..., 1 (8.7)
unde N
tp+fn
reprezinta acea dimensiune a ferestrei pentru care obt inem
toate rezultatele corecte existente n baza. Reprezentat n acest fel, gra-
cul precisionrecall ofera o imagine asupra performant ei sistemului pentru
toat a plaja de puncte de operare, puntandu-se stabili performant a punctuala
n oricare dintre acestea.
Figura 8.3 prezinta cateva exemple de grace precision recall pentru
un sistem perfect n care precision si recall sunt 100%, un sistem com-
plet inecient n care precision si recall sunt 0% si un sistem real, sistemul
propus n [Ionescu 13]. Primele doua variante sunt variantele extreme, de
performant a maxima si relativ minima, n realitate performant ele sistemelor
existente regasindu-se ntre aceste doua curbe (vezi Figura 8.3.(c)).
0 0.5 1
0.2
0.4
0.6
0.8
1
(a)
(b)
p
r
e
c
i
s
i
o
n
recall
p
r
e
c
i
s
i
o
n
recall recall
p
r
e
c
i
s
i
o
n
(c)
Figura 8.3: Exemple de grace de tip precisionrecall pentru: (a) un sistem
perfect, (b) un sistem complet inecient, (c) un sistem real de cautare auto-
mat a a segmentelor de violent a din lme [Ionescu 13] (curbele sunt obt inute
pentru diferite valori ale parametrilor sistemului).
O alta interpretare a gracului precision recall este aceea din per-
spectiva raportului de documente gasite corect (tpr) raportat la raportul de
documente returnate eronat (fpr), ceea ce se numeste curba de tip Recei-
ver Operational Characteristic sau ROC. Cele doua rapoarte sunt denite n
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 91
modul urmator:
tpr =
tp
tp +fn
, fpr =
fp
fp +tn
(8.8)
unde tp reprezinta numarul de documente returnate corect (vezi ecuat ia 8.2),
fn reprezinta numarul de documente cautate care nu sunt returnate (non-
detect ie), fp reprezinta num arul de documente fals detectate iar tn repre-
zinta numarul de documente ignorate (documente care sunt prezise corect
ca neapart inand clasei cautate). Denite n acest fel, tpr este o masura a
numarului de documente returnate corect iar fpr o masura a numarului de
documente returnate eronat.
Figura 8.4 prezinta doua exemple de curbe ROC, n cazul unui sistem
perfect n care tpr este 100% iar fpr este 0% cat si n cazul unui sistem
complet inecient n care numarul de rezultate corecte este egal cu numarul
de rezultate false, un astfel de sistem neputand practic utilizat.

In realitate,
pentru ca un sistem de indexare sa ofere performant e bune, curba ROC
asociata trebuie sa se situeze ntre cele doua grace, cat mai apropiata de
sistemul ideal.
t
p
r
fpr
t
p
r
fpr
(a)
(b)
Figura 8.4: Exemple de grace de tip ROC pentru: (a) un sistem perfect, (b)
un sistem complet inecient n care numarul de documente returnate eronat
este egal cu numarul de documente returnate corect.
8.2.4 Mean Average Precision

In ultimii ani, pornind din contextul sistemelor de indexare video, s-a im-
pus ca standard de evaluare a performant elor sistemelor de indexare ceea ce
numim Mean Average Precision sau MAP
3
. MAP furnizeaza o masura a ca-
3
vezi utilitar http://trec.nist.gov/trec_eval
CAPITOLUL 8. EVALUAREA PERFOMANT ELOR INDEX

ARII 92
lit at ii sistemului pentru diferite valori ale recall (vezi ecuat ie 8.2), totul prin
intermediul unei singure marimi. Acesta se dovedeste n practica a furniza o
bun a stabilitate si discriminant a n evaluarea diferitelor sisteme.
MAP este estimat n modul urmator: daca pentru o anumita cerere de
cautare q
j
, unde j = 1, ..., |Q| cu Q reprezentand mult imea cautarilor posi-
bile pentru sistemul considerat (de exemplu, daca sistemul permite indexa-
rea n funct ie de obiecte atunci Q reprezinta mult imea tuturor obiectelor din
baz a) iar operatorul ||.|| returneaza numarul de elemente ale unei mult imi;
mult imea documentelor relevante din baza este {d
1
, ..., d
m
j
} (numarul de do-
cumente relevante pentru q
j
este m
j
) iar R
jk
reprezinta mult imea primelor
documente returnate pana la documentul d
k
(fereastra de rezultate care in-
clude si documentul d
k
), atunci MAP este denit ca:
MAP(Q) =
1
||Q||

|Q|

j=1
1
m
j
m
j

k=1
precision(R
jk
) (8.9)
unde precision este calculat asa cum a fost denit n ecuat ia 8.2. Cu alte
cuvinte, MAP reprezinta media precision pentru fereastra de rezultate ce
include toate documentele relevante pentru o cautare (termenul Average),
valoare ce este la randul ei mediata pentru toate cautarile posibile (termenul
Mean).

In cazul n care sistemul nu returneaza nici un document relevant
atunci MAP este 0%.
Pentru o singura cerere de cautare (query) MAP poate aproximat ca
ind aria dintre gracului precisionrecall si axa orizontala (vezi Figura 8.3)
si astfel pentru un set de cautari acesta va reprezenta aria medie a gracelor
de precision recall.
CAPITOLUL 9
Paradigme ale indexarii

In capitolele anterioare am trecut n revista punctual marea parte a proble-


melor de prelucrare aferente sistemelor de indexare automata dupa cont inut
a datelor multimedia.

In acest ultim capitol vom face o treceren revista a barierelor tehnologice,


principiale, ce trebuiesc depasite pentru a putea solut iona ecient problema
cautarii informat iei. Acestea sunt enunt ate n literatura sub denumirea de
paradigme:
paradigma senzoriala (sensor gap) reprezinta discrepant a care
exista ntre informat iile prezente n lumea reala 3D si informat iile nre-
gistrate de senzori (de exemplu camere foto, video, microfoane, etc.),
informat ii ce sunt folosite pentru analiza cont inutului datelor. De
exemplu, n cazul imaginilor acestea nu sunt decat proiect ii plane 2D
al lumii 3D. Mai mult, acelasi obiect de interes poate conduce la un
numar nelimitat de reprezentari diferite datorate perturbat iei senzo-
rilor sau a factorilor externi (vezi exemple din Figura 9.1). Astfel, o
prima paradigma ce trebuie depasita este aceea a modelarii informat iei
incomplete de care dispunem si a variabilitat ii acesteia. Practic meto-
dele de analiza de cont inut ncearca sa estimeze informat iile lipsa, e
pe baza unor modele, sau prin compensarea cu informat ii suplimentare
obt inute din alte surse;
paradigma semantica (semantic gap) reprezinta discrepant a care
existantre informat iile extrasen mod automat din date si semnicat ia
semantica pe care le-o putem atribuii acestora. Cu alte cuvinte, n ciuda
93
CAPITOLUL 9. PARADIGME ALE INDEX

ARII 94
Figura 9.1: Un anumit obiect poate nregistrat sub o multitudine de re-
prezentari diferite datorate schimbarii unghiului din care este reprezentat,
schimbarii de iluminare, schimbarii fundalului sau ocluziei cu alte obiecte
(surs a imagini [Snoek 10]).
faptului ca un sistem poate funct iona corect din punct de vedere al
algoritmilor, si chiar mai mult, poate antrenat sa raspunda optimal
pentru un anumit domeniu de aplicat ie sau set de date, n realitate
rezultatele obt inute pot sa nu corespunda asteptarilor si a modului de
percept ie uman;
paradigma modelarii (model gap) reprezinta imposibilitatea de
a determina un model general pentru toate obiectele sau entitat ile
informat ionale existente n lume ind limitat i n a modela cazuri par-
ticulare, precum obiecte, concepte, evenimente si asa mai departe. Di-
versitatea informat ionala existenta face imposibil a acoperirea tuturor
cazurilor posibile;
Figura 9.2: Exista o multitudine de obiecte si concepte ce trebuiesc modelate
pentru a putea accesate la nivel de informat ie.
CAPITOLUL 9. PARADIGME ALE INDEX

ARII 95
paradigma intent iei (intention/query gap) reprezinta discrepant a
dintre informat iile pe care utilizatorul doreste sa le gasesca si modul
de exprimare a criteriilor de cautare ntr-un sistem de indexare (vezi
Figura 9.3). Cele mai performante metode existente permit specicarea
criteriilor de cautare sub foma textuala. Acest mod de reprezentare este
limitat la un numar redus de informat ii ce pot furnizate (de regul a
cel mult o propozit ie) nereectand n totalitate informat ia reala dorita;
Figura 9.3: Exista o multitudine de ntrebuint ari ale aceluiasi concept, de
exemplu kiwi poate reprezenta atat o companie aeriana, un fruct sau o
pas are, bear (urs) este foarte similar cu beer (bere) sau grid (caro-
iaj) cu greed (lacom) (exemplu din cursul Indexarea Cont inutului Vizual,
Constantin Vertan, Universitatea Politehnica din Bucuresti).
paradigma utilitat ii (utility gap) reprezinta discrepant a care exista
ntre rezultatele furnizate de sistem si utilitatea reala practic a a aces-
tora pentru utilizator. Ca si n cazul paradigmei semantice, siste-
mul poate performant si sa returneze utilizatorului o multitudine
de informat ii relevante relativ la datele cautate, dar cate dintre aceste
informat ii vor servi n mod real util utilizatorului.
Bibliograe
[Bimbo 99] A. Del Bimbo. Visual Information Retrieval. Morgan
Kaufmann Publishers, San Francisco, USA 1999.
[Bovik 09] Alan C. Bovik. The Essential Guide to Video Processing.
Academic Press, ISBN: 978-0-12-374456-2, 2009.
[Carletta 96] J. Carletta. Assessing agreement on classication tasks:
The kappa statistic. Computational Linguistics, vol. 22,
nr. 2, pag. 249254, 1996.
[CITIA 13] CITIA. City of Moving Images, International Animated
Film Festival of Annecy, France. http://www.citia.info,
2013.
[Ciuc 05] M. Ciuc & C. Vertan. Prelucrarea Statistica a Semnalelor.
Editura MatrixRom, http://www.miv.ro/books/MCiuc_
CVertan_PSS.pdf, 2005.
[Deza 06] E. Deza & M.M. Deza. Dictionary of Distances. Elsevier
Science, 1st edition, ISBN-10:0444520872, 2006.
[Flickner 95] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Hu-
ang, B. Dom, M. Gorkani, J. Hafner, D. Lee, D. Patkovic,
D. Steele & P. Yanker. Query by Image and Video Con-
tent: The QBIC System. IEEE Computer, vol. 28, nr. 9,
pag. 2332, septembrie 1995.
97
BIBLIOGRAFIE 98
[Gauglitz 11] S. Gauglitz, T. Hollerer & M. Turk. Evaluation of Inte-
rest Point Detectors and Feature Descriptors for Visual
Tracking. Int J. Comput Vis, vol. DOI 10.1007/s11263-
011-0431-5, 2011.
[G omez-Perez 04] A. Gomez-Perez, M. Fernandez-Lopez & O. Corcho. Lec-
ture Notes: Multimedia Information Systems. Ontological
Engineering: With Examples from the Areas of Know-
ledge Management, E-commerce and the Semantic Web,
Springer. ISBN 978-1-85233-551-9., 2004.
[Ionescu 09] B. Ionescu. Analiza si Prelucrarea Secvent elor Video: In-
dexarea Automata dupa Cont inut. Editura Tehnica Bu-
curesti, ISBN 978-973-31-2354-5, 2009.
[Ionescu 10] B. Ionescu, L. Ott, P. Lambert, D. Coquin, A. Pacureanu
& V. Buzuloiu. Tackling Action - Based Video Abstraction
of Animated Movies for Video Browsing. SPIE - Journal
of Electronic Imaging, vol. 19, nr. 3, 2010.
[Ionescu 11] B. Ionescu, C. Rasche, C. Vertan & P. Lambert. A
Contour-Color-Action Approach to Automatic Classica-
tion of Several Common Video Genres. Springer-Verlag
LNCS - Lecture Notes in Computer Science, Eds. M. Dety-
niecki, P. Knees, A. Nurnberger, M. Schedl and S. Stober,
vol. 6817, pag. 7488, 2011.
[Ionescu 12a] B. Ionescu, K. Seyerlehner, C. Rasche, C. Vertan &
P. Lambert. Content-based Video Description for Automa-
tic Video Genre Categorization. International Conference
on MultiMedia Modeling, 2012.
[Ionescu 12b] B. Ionescu, K. Seyerlehner, C. Rasche, C. Vertan &
P. Lambert. Video Genre Categorization and Represen-
tation using Audio-Visual Information. SPIE - Journal of
Electronic Imaging, vol. 21, nr. 2, 2012.
[Ionescu 13] B. Ionescu, J. Schl uter, I. Mironica & M. Schedl. A Naive
Mid-level Concept-based Fusion Approach to Violence De-
tection in Hollywood Movies. ACM International Confe-
rence on Multimedia Retrieval, 2013.
[Jain 89] Anil K. Jain. Fundamentals of digital image processing.
Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1989.
BIBLIOGRAFIE 99
[Kelly 03] D. Kelly & J. Teevan. Implicit Feedback for Inferring
User Preference: a Bibliography. International Conference
on Research and Development in Information Retrieval,
vol. 37, nr. 2, pag. 1828, 2003.
[Knees 07] P. Knees, M. Schedl, T. Pohle & G. Widmer. Exploring
Music Collections in Virtual Landscapes. IEEE MultiMe-
dia, vol. 14, nr. 3, pag. 4654, 2007.
[Knees 09] P. Knees, T. Pohle, M. Schedl, D. Schnitzer, K. Seyerleh-
ner & G. Widmer. Augmenting Text-Based Music Retrie-
val with Audio Similarity. International Society for Music
Information Retrieval, 2009.
[Kotsiantis 07] S.B. Kotsiantis. Supervised Machine Learning: A Review
of Classication Techniques. Informatica, vol. 31, pag.
249268, 2007.
[Kyungpook 06] National University Kyungpook. Articial Intelligence
Laboratory. http://ailab.kyungpook.ac.kr/vindex/
video-view.html, 2006.
[Lamel 08] L. Lamel & J.-L. Gauvain. Speech Processing for Au-
dio Indexing. Int. Conf. on Natural Language Processing,
vol. LNCS, 5221, pag. 415, 2008.
[Lan 12] Z. Lan, L. Bao, S.-I. Yu, W. Liu & A.G. Hauptmann. Do-
uble Fusion for Multimedia Event Detection. International
Conference on Multimedia Modeling, Klagenfurt, Austria,
2012.
[Larson 10] Ray R. Larson. Blind Relevance Feedback for the Image-
CLEF Wikipedia Retrieval Task. CLEF 2010 LABs and
Workshops, Notebook Papers, pag. 2223, 2010.
[Lienhart 01] R. Lienhart. Reliable Transition Detection in Videos:
A Survey and Practitiners Guide. MRL, Intel Corpo-
ration, http://www.lienhart.de/Publications/IJIG_
AUG2001.pdf, august, Santa Clara, USA 2001.
[Maillet 03] S.M. Maillet. Content-Based Video Retrieval: An Over-
view. http://viper.unige.ch/
~
marchand/CBVR/, 2003.
BIBLIOGRAFIE 100
[Manning 08] C.D. Manning, P. Raghavan & H. Sch utze. Introduction to
Information Retrieval. Cambridge University Press, http:
//nlp.stanford.edu/IR-book/, 2008.
[Mathieu 10] B. Mathieu, S. Essid, T. Fillon, J. Prado & G. Richard.
YAAFE an Easy to Use and Ecient Audio Feature Ex-
traction Software. 11th ISMIR conference, Utrecht, Ne-
therlands, 2010.
[Mingqiang 08] Y. Mingqiang, K. Kidiyo & R. Joseph. A Survey of Shape
Feature Extraction Techniques. Pattern Recognition, pag.
4390, 2008.
[Mironica 12a] I. Mironica, B. Ionescu & C. Vertan. Hierarchical Clus-
tering Relevance Feedback for Content-Based Image Re-
trieval. 10th International Workshop on Content-Based
Multimedia Indexing, Annecy, France 2012.
[Mironica 12b] I. Mironica, B. Ionescu & C. Vertan. The Inuence of the
Similarity Measure to Relevance Feedback. 20th European
Signal Processing Conference EUSIPCO, 2012.
[Nakazato 01] M. Nakazato & S. T. Huang. 3D MARS: Immersive vir-
tual reality for content based image retrieval. IEEE Inter-
national Conference on Multimedia and Exposition, pag.
4548, 2001.
[Nowak 10] S. Nowak & S. R uger. How reliable are annotations via
crowdsourcing? a study about inter-annotator agreement
for multi-label image annotation. Int. Conf. on Multimedia
Information Retrieval, pag. 557, 2010.
[Orchard 91] M. Orchard & C. Bouman. Color Quantization of Images.
IEEE Trans. on Sig. Proc., vol. 39, nr. 12, pag. 26772690,
1991.
[Over 12] Paul Over, George Awad, Martial Michel, Jonathan Fis-
cus, Greg Sanders, Barbara Shaw, Wessel Kraaij, Alan F.
Smeaton & Georges Queenot. TRECVID 2012 An Over-
view of the Goals, Tasks, Data, Evaluation Mechanisms
and Metrics. In Proceedings of TRECVID 2012. NIST,
USA, 2012.
BIBLIOGRAFIE 101
[Reynertson 70] A. J. Reynertson. The Work of the Film Director. Has-
tings House, 1970.
[Rocchio 71] J. Rocchio. Relevance Feedback in Information Retrieval.
The Smart Retrieval System Experiments in Automatic
Document Processing, Prentice Hall, Englewood Clis NJ,
pag. 313323, 1971.
[Rooij 08] O. Rooij, C. G. M. Snoek, & M. Worring. Mediamill: Fast
and eective video search using the ForkBrowser. ACM
International Conference on Image and Video Retrieval,
2008.
[Rooij 10] O. Rooij, M. Worring & J. J. van Wijk. MediaTable: In-
teractive Categorization of Multimedia Collections. IEEE
Computer Graphics and Applications, vol. 30, nr. 5, pag.
4251, 2010.
[Rubner 00] Y. Rubner, C. Tomasi & L.J. Guibas. The Earth Movers
Distance as a Metric for Image Retrieval. International
Journal of Computer Vision, vol. 40, nr. 2, pag. 99121,
2000.
[Rui 99] Y. Rui, T. Huang & S.-F. Chang. Image Retrieval: Cur-
rent Techniques, Promising Directions and Open Issues.
Journal of Visual Communication and Image Representa-
tion, vol. 10, nr. 1, pag. 3962, 1999.
[Schoemann 11] K. Schoemann & L. Boeszoermenyi. Image and Video
Browsing with a Cylindrical 3D Storyboard. ACM Inter-
national Conference on Multimedia Retrieval, 2011.
[Seyerlehner 10] K. Seyerlehner, M. Schedl, T. Pohle & P. Knees. Using
Block-Level Features for Genre Classication, Tag Classi-
cation and Music Similarity Estimation. 6th Annual Mu-
sic Information Retrieval Evaluation eXchange (MIREX-
10), Utrecht, Netherlands, 2010.
[Shirahama 11] K. Shirahama & K. Uehara. Query by Virtual Exam-
ple: Video Retrieval Using Example Shots Created by Vir-
tual Reality Techniques. Sixth International Conference
on Image and Graphics, pag. 829834, 2011.
BIBLIOGRAFIE 102
[Smeulders 00] A.W.M. Smeulders, M. Worring, S. Santini, A. Gupta &
R. Jain. Content-Based Image Retrieval at the End of
the Early Years. IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 22, nr. 12, pag. 13491380,
decembrie 2000.
[Snoek 05] C. G. M. Snoek, M. Worring & A. W. M. Smeulders. Early
versus Late Fusion in Semantic Video Analysis. ACM
Multimedia, 2005.
[Snoek 10] C.G.M. Snoek & A.W.M. Smeulders. Video Search
Engines. IEEE Conference on Computer Vision and
Pattern Recognition, http://staff.science.uva.nl/
~
cgmsnoek/videosearch2010/, 2010.
[St ottinger 10] Julian Stottinger, Bogdan Tudor Goras, Nicu Sebe & Al-
lan Hanbury. Behavior and properties of spatio-temporal
local features under visual transformations. 2010.
[Tremeau 04] A. Tremeau, C. Fernandez-Maloigne & P. Bonton. Image
Numerique Couleur: De lAcquisition au Traitement. DU-
NOD ISBN 2-10-006843-1, 2004.
[Truong 07] B.T. Truong & S. Venkatesh. Video Abstraction: A Sys-
tematic Review and Classication. ACM Transactions
on Multimedia Computing, Communications and Appli-
cations, vol. 3, nr. 1, 2007.
[Tuceryan 93] M. Tuceryan & A. K. Jain. Texture analysis. The Han-
dbook of Pattern Recognition and Computer Vision (2nd
Edition), pag. 235276, 1993.
[Wallach 06] Hanna M. Wallach. Topic Modeling: Beyond
Bag-of-Words. University of Cambridge, https:
//people.cs.umass.edu/
~
wallach/talks/beyond_
bag-of-words.pdf, 2006.
[Welling 05] M. Welling. Support Vector Machines. Note de curs, Uni-
versity of Toronto, Department of Computer Science, Can-
ada, http://www.ics.uci.edu/
~
welling/classnotes/
papers_class/SVM.pdf, 2005.
BIBLIOGRAFIE 103
[Witten 05] I.H. Witten & E. Frank. Data Minning - Practical Ma-
chine Learning Tools and Techniques. Elsevier, Morgan
Kaufman Publishers, second edition, pag. 265270, 2005.
[Worring 03] M. Worring. Lecture Notes: Multimedia Information Sys-
tems. Intelligent Sensory Information Systems, University
of Amsterdam, 2003.
[Worring 12] M. Worring. Multimedia Analytics: Exploration of
Large Multimedia Collections. keynote la International
Workshop on Content-Based Multimedia Indexing,
http://www.polytech.univ-savoie.fr/fileadmin/
polytech_autres_sites/sites/cbmi2012/templates/
fichiers/cbmi2012-worring.pdf, 2012.

S-ar putea să vă placă și