Documente Academic
Documente Profesional
Documente Cultură
TEZ DE DOCTORAT
TEHNICI INTELIGENTE PENTRU ANALIZA I
CLASIFICAREA COLECIILOR DE BAZE DE DATE
MULTIMEDIA
COMISIA DE DOCTORAT
Preedinte prof. dr. ing. Gheorghe de la Univ. Politehnica
BREZEANU Bucureti
Conductor de prof. dr. ing. Radu DOGARU de la Univ. Politehnica
doctorat Bucureti
Referent prof. dr. ing. Constantin de la Univ. Politehnica
VERTAN Bucureti
Referent conf. dr. ing. Nicu SEBE de la Univ. din Trento,
Italia
Referent conf. dr. ing. Laureniu de la Univ. Transilvania
Mihail IVANOVICI Braov
BUCURETI 2013
______________
.
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Mulumiri
O dat cu finalizarea acestei etape din viaa mea, mi doresc s adresez cteva cuvinte
de mulumire celor care m-au ndrumat sau mi-au acordat suportul pe parcursul
acestei lucrri de doctorat.
n primul rnd mi doresc s mulumesc coordonatorului meu tiinific,
domnului Prof. dr. ing. Radu DOGARU, pentru permanenta sa ndrumare, sprijinire i
ncurajare de-a lungul perioadei de pregtire a doctoratului i de elaborare a tezei. n
egal msur, doresc s i mulumesc domnului Prof. dr. ing. Constantin VERTAN,
cel care m-a introdus n lumea prelucrrii de imagini i m-a sprijinit n mod constant
pe toat perioada studiilor doctorale.
n continuare, doresc s mi exprim gratitudinea fa de membrii comisiei de
evaluare a lucrrii pentru sfaturile i sugestiile oferite. Doresc s mulumesc n mod
special domnului Prof. dr. ing. Gheorghe BREZEANU care mi-a fcut onoarea s
accepte s fie preedintele comisiei de doctorat. De asemenea, doresc s mulumesc
domnului conf. dr. ing. Mihail Laureniu IVANOVICI pentru toate sfaturile pertinente
i constructive, oferite pe perioada corectrii tezei de doctorat
Mulumesc n mod deosebit domnului conf. dr. ing. Nicu SEBE deoarece m-a
acceptat n cadrul unui stagiu n Trento, pentru sprijinul constant acordat att
administrativ, ct i tiinific. De asemenea, i mulumesc c a acceptat s ia parte la
susinerea tezei mele. Deosebit recunotin datorez domnului dr. Jasper UIJLINGS
pentru sfaturile i sprijinul tiinific acordat pe toat perioada stagiului meu n Trento.
A dori s mulumesc echipei minunate din cadrul Universitii Trento pentru
sprijinul total: Anca-Livia RADU, Radu VIERIU, Negar ROSTAMZADEH, Mojtaba
Khomami ABADI, Victoria YANULEVSKAYA, Gloria ZEN, Manuel
ZUCCHELLINI i Jacobo STAIANO. De asemenea, doresc s mulumesc domnilor
Alejandro Hector TOSSELI i Hamed REZAZADEGAN pentru discuiile interesante
pe care le-am avut pe perioada stagiului meu la Trento.
Mulumesc n mod special soiei mele Diana, care m-a sprijinit necondiionat
pe toat perioada studiilor doctorale, i care a avut rbdarea s corecteze aceast
lucrare. De asemenea, mi doresc s mulumesc n mod mod deosebit mamei mele
pentru sprijinul permanent acordat i care, ntotdeauna a subliniat importana unei
bune educaii. Nu n ultimul rnd, doresc s mulumesc surorii mele, pentru ajutorul
acordat pe perioada studiilor, i pentru timpul depus pentru corectarea acestei
lucrri.
n ncheiere, a dori s mulumesc colegilor mei, domnii Rzvan
PRUNDEANU, Marius STANCU i Dan DUMITRU, pentru sprijinul i nelegerea
acordat pe toat perioada studiilor.
ii
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Lista tabelelor
Tab. 5.1 Comparaie ntre cele mai bune rezultate ................................................... 108
Tab. 5.2 Comparaie ntre complexitatea computaional i lungimea descriptorilor111
Tab. 6.1 Comparaie rezultate cu competiia MediaEval 2012 Tagging Task .......... 121
Tab. 6.2 Performana iniial a descriptorilor selectai ............................................. 122
Tab. 6.3 Comparaie rezultate State-of-the-Art ........................................................ 124
Tab. 6.4 Comparaie rezultate State-of-the-Art ......................................................... 125
Tab. 6.5 Comparaie rezultate State-of-the-Art ........................................................ 127
Tab. 7.1 Top trei performane pentru bazele de date Microsoft i Caltech 101 (MAP).
.................................................................................................................................... 143
Tab. 7.2 Performana medie obinut pe baza de date de test .................................... 147
Tab. 7.3 Performana sistemului pentru diferite ferestre de afisare. ......................... 149
Tab. 7.4 Performana sistemului fr relevance feedback, utiliznd diferite metrici .
.................................................................................................................................... 154
Tab. 7.5 Performana sistemului utiliznd diferite tehnici de normalizare. ............... 155
Tab. 7.6 Comparaie acuratee cu ali algoritmi de relevance feedback. ................... 156
Tab. 7.7 Comparaie acuratee ntre FKRF clasic i FKRF cu GMM global. ........... 157
Tab. 7.8 Comparaie acuratee dintre FKRF clasic i FKRF temporal. ..................... 158
Tab. 8.1 Comparaie cu State-of-the-Art. .................................................................. 166
Tab. 8.2 Performana trsturilor propuse pentru clasificarea genului. ..................... 174
Tab. 8.3 Performana obinut cu diferite strategii de fuziune. ................................. 175
Tab. 8.4 Comparaie cu algoritmii raportai n State-of-The-Art............................... 177
Tab. 8.6 Comparaie cu rezultatele obinute la compeia MediaEval 2012 ............... 182
Tab. 8.4 Comparaie cu algoritmii raportai n State-of-The-Art............................... 186
iii
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
iv
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Lista figurilor
Fig. 1.1 Surse de informaie multimedia........................................................................ 5
Fig. 1.2 Arhitectura de baz a unui sistem de cutare dup coninut multimedia ......... 6
Fig. 2.1 Exemplificare a paradigmei semantice prin utilizarea histogramei de culoare.
...................................................................................................................................... 15
Fig. 2.2 Exemple de perechi de imagini n care paradigma semantic este prezent . 16
Fig. 2.3 Prezentarea procesului de interaciune utilizator-sistem n cadrul algoritmului
de relevance feedback. ................................................................................................. 17
Fig. 2.4 Schema unui sistem clasic de cutare a documentelor multimedia dup
coninut ........................................................................................................................ 18
Fig. 2.6 Exemple de browser 2D (MediaMill) ............................................................. 20
Fig. 2.7 Exemplu de browser cu navigare 3D .............................................................. 20
Fig. 2.8 Ilustraii ale unor sisteme cu browser cu navigare 3D.................................... 21
Fig. 2.9 Schema unui sistem cu fuziune Early Fusion ............................................. 25
Fig. 2.10 Exemplu de normalizare folosind funcii dublu sigmoide............................ 27
Fig. 2.11 Ilustraii ale unor sisteme de late fusion.................................................... 28
Fig. 2.12 Interpretarea graficelor precizie-reamintire .................................................. 33
Fig. 2.13 Interpretarea curbelor ROC .......................................................................... 35
Fig. 2.14 Exemple de imagini din baza de date Image CLEF ..................................... 36
Fig. 2.15 Exemple de imagini din baza de date Image Caltech 101 ............................ 37
Fig. 2.16 Exemple de imagini din baza de date Image Pascal 2007 ............................ 38
Fig. 2.17 Exemple de documente video din baza de date MediaEval 2012 ............... 39
Fig. 3.1 Cubul RGB ..................................................................................................... 42
Fig. 3.2 Planul YCbCr cu y = 0.5. ............................................................................... 43
Fig. 3.3 Spaiul de culoare a familiei HSV. ................................................................. 43
Fig. 3.4 Sistemul de coordonate pentru HMMD.......................................................... 44
Fig. 3.5 Sistemul de coordonate pentru CIE Lab. ....................................................... 45
Fig. 3.6 Spaiul de culoare Color Naming ................................................................... 46
Fig. 3.7 Ilustrare a variaia histogramei n cazul unor modificri minore de scen ..... 47
Fig. 3.8 Exemple de divizri ale spaiului suport al imaginii n vederea calculului de
histograme augmentate ................................................................................................ 49
Fig. 3.9 Schem ilustrativ a reprezentrii prin piramide. ........................................... 50
Fig. 3.10 Exemple de texturi aparinnd bazei de date Vis Tex .................................. 50
Fig. 3.11 Partiii de caracterizare a texturilor n domeniul spectral Fourier ................ 58
Fig. 3.12 Schema de calcul a operatorului LBP.......................................................... 59
Fig. 3.13 Exemple de metode de extragere a punctelor de interes .............................. 63
Fig. 3.14 Procesul de antrenare n cadrul algoritmului Bag of Words ........................ 67
Fig. 3.15 Procesul de clasificare n cadrul algoritmului Bag of Words ....................... 68
Fig. 3.16 Imprirea imaginii iniiale pentru descriptorul Edge Histogram ................. 72
Fig. 3.17 Exemple de ferestrele detectoare de muchii ................................................. 73
Fig. 3.20 Modaliti de mprire a semnalului audio .................................................. 77
Fig. 3.21 Schema general a unui sistem de clasificare de semnale audio. ................. 77
v
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
vi
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 7.18 Grafice Precizie Reaminitire pentru o sesiune de relevance feedback .... 149
Fig. 7.19 Schema logic a algoritmului Relevance Feedback cu Fisher kernel ........ 151
Fig. 7.20 Performana algoritmului FKRF la variaia numrului de centroizi GMM
(valori MAP) .............................................................................................................. 155
Fig. 7.21 Grafice precizie-reamintire pentru metoda propus i algoritmi state-of-the-
art ............................................................................................................................... 156
Fig. 7.22 Performana algoritmului FKRF temporal la variaia numrului de centroizi
GMM.......................................................................................................................... 158
Fig. 8.1 Schema algoritmului propus pentru clasificarea imaginilor otoscopice ....... 163
Fig. 8.2 Exemple de imagini otoscopice utilizate n experimente: prima linie conine
exemple de imagini fr otit, iar linia a doua prezint inflamaii ale urechii medii 163
Fig. 8.3 Acurateea de clasificare. .............................................................................. 164
Fig. 8.4 Precizia medie pentru metodele de fuzionare. .............................................. 165
Fig. 8.5 Exemple de imagini medicale utilizate n experiment .................................. 167
Fig 8.6 Performanele obinute n experimentele de retrieval utiliznd descriptorii
propui........................................................................................................................ 168
Fig. 8.7 Performana algorimilor de clasificare pentru fiecare set de descriptori ...... 169
Fig. 8.8 Schema sistemului propus pentru clasificarea genului documentelor video
web ............................................................................................................................. 172
Fig. 8.9 Rezultatele clasificrii pe fiecare gest utiliznd diferite metode de clasificare:
.................................................................................................................................... 186
vii
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
viii
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Lista abrevierilor
ADL - University of Rochester Activities of Daily Living
ANMRR - Average Normalized Modified Retrieval Rank
ARR - Average Retrieval Rank- ARR
ARF - Austrian Romanian Team
ASR - Automatic Speech Recognition
AVR - Average Rank
BLOB - Binary Large Objects
BoVW - Bag of Visual Words
BoW - Bag of Words
CBMI - Content Based Multimedia Indexing
CCV - Color Coherence Vectors
CHD - Color Histogram Descriptor
CLD - Color Layer Descriptor
CN - Color Naming
CSD - Color Structure Descriptor
DCT - Discrete Cosinus Transform
EHB - E-Health and Bioengineering Conference
ERF - Extremelly Random Forests
EUSIPCO - European Signal Processing Conference
FK - Fisher Kernel
FPR - False Positive Rate
GBT - Gradient Boosted Trees
GIS - Geographic Information System
GLOH - Gradient Location-Orientation Histogram
GMM - Gaussian Mixture Model
GOOD - Good Features to Track
HAC - Hierarhical Agglomerative Clustering
HCRF - Hierarhical Clustering Relevance Feedback
HMM - Hidden Markov Model
HMMD - Hue Minim Maxim Difference
HOF - Histograms of Optical Flow
HOG - Histograms of Oriented Gradients
HSV - Hue Saturation Value
ICCP - International Conference on Intelligent Computer Communication and
Processing
ICMR - International Conference of Multimedia Retrieval
ISSCS - International Symposium on Signals, Circuits and Systems
KTH-TIPS - Textures under varying Illumination, Pose and Scale
LBP - Localy Binary Patterns
LDA - Latent Dirichlet Allocation
LLE - Local Linear Embedding
ix
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
x
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
_____________________________________________________________________
Cuprins
_____________________________________________________________________
Pag.
Mulumiri...................................................................................................................... i
Lista figurilor................................................................................................................v
Lista abrevierilor........................................................................................................ ix
PARTEA 1 .............................................................................................................................. 1
CAPITOLUL 1 ........................................................................................................................ 3
INTRODUCERE ..................................................................................................................... 3
CAPITOLUL 2 ...................................................................................................................... 11
xi
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
CAPITOLUL 3 ...................................................................................................................... 41
xii
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
CAPITOLUL 4 ...................................................................................................................... 87
PARTEA II ............................................................................................................................ 99
xiii
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
7.1 Algoritm propus de Relevance Feedback cu estimare a importanei trsturilor .................. 130
7.1.1 Prezentare algoritm ................................................................................................................ 130
7.3 Rezultate experimentale ............................................................................................................ 132
xiv
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
CONCLUZII........................................................................................................................ 187
xv
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
xvi
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
PARTEA 1
1
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
2
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 1
Introducere
n ultimul deceniu, volumul de informaie multimedia a manifestat o cretere
exponenial. Mrirea capacitilor de stocare i procesare, ct i rspndirea masiv a
tehnologiei portabile au avut ca efect o explozie a coninutului multimedia. Practic,
tehnologia multimedia face acum parte din viaa cotidian a oricui. n 2012, mai mult de
72 de ore de coninut video au fost ncrcate n fiecare minut pe Youtube. Ca i volum de
redare video, peste 500 de ani de filme sunt vizualizate n fiecare zi pe Facebook i peste
700 de documente video sunt rulate n fiecare minut pe Twitter. Aadar, principala
provocare pentru sistemele multmedia nu este capabilitatea acestora de a manipula
volume impresionante de date, ci aceea de a identifica i selecta numai informaie
relevant pentru utilizatori. Odat cu creterea volumului de date multimedia, au nceput
s apar probleme n gestionarea i manipularea datelor. Uneori, chiar i regsirea unui
anumit fiier multimedia pe calculatorul personal poate fi o operaie comparat cu
cutarea acului n carul cu fn.
n aceast lucrare mi propun s analizez modaliti de indexare i cutare n baze
de date multimedia. Domeniul indexrii dup coninut a obiectelor multimedia i
propune rezolvarea problemei de gsire a unor documente similare ntr-o baz de date
multimedia, utiliznd ca i elemente de cutare componentele descriptive: imagini / cadre
(descrierea componentelor de culoare, textur, a punctelor cheie i a formelor obiectelor
componente), sunet, text (subtitrri extrase prin tehnici de recunoatere automat a
vorbirii), ritm (pentru documente video / sunet), metadate etc.
3
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
4
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
imaginii, care au o valoare descriptiv ridicat. Cei mai importani algoritmi de descriere
i extragere a punctelor cheie sunt: SURF, SIFT, GIST, FAST, Harris etc.
O alt component important pentru descrierea coninutului vizual este evoluia
temporal a informaiei vizuale, mai precis detecia micrii din cadrul documentelor
video. Analiza micrii se poate efectua att la nivel global, pentru recunoaterea micrii
camerei video, detecia activitii de micare, ct i local, prin analiza micrii obiectelor
din scen.
1
http://www.youtube.com
5
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 1.2 Arhitectura de baz a unui sistem de cutare dup coninut multimedia.
6
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
7
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
8
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
9
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
10
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 2
12
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Acest nivel poate conine la rndul lui mai multe tipuri de interogri:
- regsirea unor evenimente i tipuri de activiti (ex: cutare documente n care se
joac hora);
- cutarea de imagini care conin emoii sau semnificaii religioase deosebite.
13
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
14
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
2
metadatele sunt definite uzual ca fiind date despre date, sau altfel spus, date care descriu alte date, de
orice fel i de orice tip. Cu alte cuvinte, metadatele ofer informaii suplimentare la o serie de date. De
exemplu, o imagine, pe lng coninutul acesteia propriu-zis poate conine metadate ce specific descrierea
coninutului acestuia.
15
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 2.2 Exemple de perechi de imagini n care paradigma semantic este prezent.
Perechile de imagini au culoare, textur i form asemanatoare, dar sensuri diferite.3
3
surs imagine http://www.blog.joelx.com/dog-lookalikes.
16
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
2.4.1 Indexator
descriptor. Mai multe detalii despre structura unui descriptor vor fi prezentate n
Seciunea 3 a lucrrii. n acest subcapitol mi propun prezentarea pe scurt a tehnologiilor
care pot fi utilizate n stocarea descriptorilor i a fiierelor multimedia.
Sistemele de baze de date moderne pun la dispoziie metode i unelte specializate
pentru gestiunea bazelor de date multimedia. Fiierele multimedia sunt stocate sub forma
tipului de date BLOB (binary large objects) sau direct pe un fileserver, baza de date
coninnd doar calea acestora. Oracle este unul dintre SGBD-urile cu componente special
dezvoltate pentru gestiunea i stocarea bazelor de date multimedia. n Oracle exist dou
abordri ale bazelor de date multimedia: prima folosete baze de date relaionale iar a
doua utlizeaz baze de date obiect-relaionale. Prima variant utilizeaz tipuri de date de
tip LOB (Large Object), care permit stocarea fisierelor multimedia sub form binar. n
1999, Oracle introduce modulul Intermedia, care faciliteaz programarea obiect-
relaional, tipurile de date utilizate permind stocarea, gestiunea si regsirea datelor
multimedia ntr-o manier integrat cu tipuri de date tradiionale.
Fig. 2.4 Schema unui sistem clasic de cutare a documentelor multimedia dup coninut
4
www.mysql.com - MySQL 5.0 Reference Manual. (2009)
18
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Microsoft SQL Server5 conine de asemeni tipuri de date speciale pentru fiiere
binare: VARBINARY(max) cu valori maxime de pn la 2 GB, dar i tipul IMAGE (cu
valori maxime similare).
2.4.2 Browserul
Browserul este probabil, pentru utilizator, componenta cea mai important, deoarece
reprezint interfaa lui de interogare a bazei de date. Majoritatea sistemelor permit funcii
clasice de interogare i cutare a bazei de date:
afiare de documente aleatoare din baza de date;
afiare a documentelor dup o anumit logic: n ordine alfabetic a denumirii, n
ordinea lungimii documentului etc;
filtrare dup cuvinte cheie sau alte metadate (comentarii document, nume uploader,
seciune ncrcare document etc).
(a) (b)
(c) (d)
Fig. 2.5 Exemplu de browser pentru un sistem de cutare al imaginilor dup coninut
(Id-Image) prezentat n [11]: a) cutare de filme b) cutare de forme c) cutare de
texturi d) cutare de imagini medicale
5
http://www.microsoft.com/en-us/sqlserver - Microsoft SQL Server.
19
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig 2.7 Exemplu de browser cu navigare 3D (3D Mars) [21]. Sistemul permite cutarea
de imagini pe diferite direcii de similaritate (culoare, textur sau structur)
20
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(d) (e)
Fig 2.8 Ilustraii ale unor sisteme cu browser cu navigare 3D n form de: a) cruce [20],
b) sfer [20], c) galaxie [20], d) i e) n form de cilindru [22]
2.4.3 Retriever
Retriever-ul este componenta care face legtura dintre interfaa utilizatorului i baza de
date. Acesta calculeaz descriptorul modelului cutat i l compar cu cele existente n
sistem. De obicei, acest modul este construit ntr-un mediu de programare care permite
calcule rapide i conine biblioteci multimedia: C, C++, .NET, Java, Matlab, Phyton, PHP
etc.
O component important a unui sistem de indexare este reprezentat de definirea
conceptului de similaritate (sau opus, disimilaritate) dintre date sau dintre descriptorii
acestora. Practic, identificarea rezultatelor cutrii se realizeaz prin localizarea datelor
ce sunt similare pn la un anumit nivel cu cererea de cutare (query). Cu alte
cuvinte, este necesar definirea unei funcii, capabil s evalueze n ce msur
dou obiecte multimedia, i , arat n mod similar. n general, evaluarea similaritii
dintre date se poate realiza fie la nivel de descriptori, la nivel de structur (layout) sau
la nivel semantic, fie folosind combinaii ale acestora.
Gradul de similaritate dintre dou fiiere multimedia se efectueaz n spaiul
descriptorilor, prin calcularea unei distane matematice dintre valorile celor dou perechi
de descriptori. n continuare, vom considera funcia S() o msura de distan (metric)
dintre 2 descriptori i . n cele ce urmeaz vom face o
21
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
( ) (2.1)
Cele mai utilizate distane Minkowski sunt distana euclidian (r=2), distana
Manhattan (r=1) i Chebyshev (r = infinit). Cutari recente au artat c utilizarea unui r
fracionar poate duce la performane mbunataite, ns este cunoscut c aceste distane
ncalc inegalitatea triunghiului. Howarth i Ruger [24] au demonstrat c performana de
regsire poate fi crescut n multe circumstane pentru r=0,5. Pentru o comparaie
complet dintre un document cutat i toi descriptorii din baza de date, complexitatea
metodei este O(mn), unde m reprezint lungimea vectorului descriptor, iar n reprezint
numrul de documente din baza de date.
n cazul n care nu toate elementele descriptorului au aceeai importan, distana
dintre fiecare pereche de valori poate fi ponderat diferit obinnd astfel distana
Minkowski ponderat:
( ) (2.2)
(2.3)
| |
Distana Bray Curtis:
(2.4)
| |
(2.4)
22
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(2.6)
( ) (2.7)
unde
Statistica X2 [29]:
(2.8)
unde
Coeficientul de corelaie Pearson reprezint o msur derivat din coeficientul de
corelaie Pearson
(2.9)
unde
( )( )
[ ( )( )][ ( )( )]
Pearson [29]:
(2.10)
Neyman:
(2.11)
Lorentzian:
(2.12)
Soergel:
(2.13)
Czekanowsky:
(2.14)
Wave-Hadges:
(2.15)
Chi-Square:
23
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(2.16)
n cazul n care cei doi descriptori au lungimi diferite, a fost definit intersecia
parial de histogram. Cnd cei doi vectori au aceeai dimensiune, aceast distan este
echivalent cu distana Manhattan [30]:
(2.17)
Msurarea disimilitudinii descriptorilor cu ajutorul formei Minkowski neglijeaz
compararea elementelor din histograme care sunt similare, dar nu identice. De exemplu, o
imagine cu regiuni roii nchis va fi considerat la fel de similar cu o imagine roie
deschis ct i cu o imagine albastr. Pentru rezolvarea acestor probleme a fost introdus
distana ptratic dintre histograme sau distana Mahalanobis.
Distana Mahalanobis este dat de formula:
(2.18)
24
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
complex poate fi mprit n mai multe subprobleme care sunt mai uor de neles i de
rezolvat (principiul divide et impera). De asemenea, se cunoate faptul c nu exist un
singur model de clasificare de patern care s funcioneze pentru toate problemele
(teorema no free lunch), efect care poate fi ns parial eliminat prin combinaia mai
multor algoritmi. n cele mai multe dintre cazuri, pentru reprezentarea coninutului
multimedia este necesar combinarea mai multor tipuri de descriptori. De exemplu,
coninutul unei secvene de imagini poate fi reprezentat att pe baza structurii temporale,
ct i prin utilizarea descriptorilor de micare, descriptori audio i aa mai departe. n
general, exist dou tipuri de fuzionare: fuzionare timpurie (early fusion) i fuzionare
trzie (Late Fusion).
Descriptor 1
Descriptor 1 normalizat
Descriptor n normalizat
Descriptor n
25
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
| | ( ) (2.23)
Valorile cele mai des ntlnite ale lui p sunt 1,2 i . Pentru , vom avea
relaia:
| | (2.24)
Tangenta hiperbolic (tanh): mapeaz valorile n intervalul (0,1), n funcie de
distribuia sa statistic:
[ ( )] (2.25)
Scalarea zecimal: se utilizeaz atunci cnd scala dintre diferite valori ale
vectorului descriptor difer pe o scar logaritmic:
(2.26)
unde
Valoarea median sau deviaia median absolut [33]: ia n calcul valoarea
median a vectorului descriptor:
(2.27)
unde
Funcia sigmoid dubl [33]: se utilizeaz atunci cnd scala dintre diferite valori
ale vectorului descriptor difer pe o scar nedefinit:
26
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(2.28)
( )
unde pentru x<t i pentru restul intervalului, iar t este de cele mai
multe ori media distribuiei descriptorului.
Fig. 2.10 Exemplu de normalizare folosind funcii dublu sigmoide (axa oX corespunde
valorilor iniiale iar axa oY valorilor normalizate).
Algoritmii de tip late fusion propun mbinarea deciziilor individuale a mai multor
sisteme expert, dup ce au fost utilizai clasificatorii pe fiecare trstur n parte. Pe baza
27
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(a) (b)
(c) (d)
Fig. 2.11 Ilustraii ale unor sisteme de late fusion: (a) Fuziune paralel ierarhic,
(b)Fuziune serial, (c) Fuziune Ierarhic Bottom-Up, (d)Fuziune Ierarhic Top-Down
28
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(2.29)
unde unde d reprezint documentul curent, iar reprezint decizia luat de clasificatorul
i.
- decizia este luat n funcie de numrul maxim de voturi (vot neponderat)
(2.30)
unde unde d reprezint documentul curent, iar este decizia luat de clasificatorul I
pentru descriptorul m.
- decizia este luat n funcie de scorul minim
( ) (2.31)
- decizia este luat n funcie de scorul maxim:
( ) (2.32)
- metoda Borda este bazat pe anumite strategii electorale existente n anumite ri.
Algoritmul presupune ca fiecare votant s genereze o ordine a preferinelor pentru
fiecare clas n parte. Astfel, primul clasat va avea n voturi, cel de pe poziia urmtoare n-
1 voturi. Clasa ctigatoare va fi cea n care suma preferinelor este maxim.
- metoda Condorcet [39]: se bazeaz de asemeni pe o anumit strategie
electoral, n care fiecare doi candidai se lupt reciproc, pn cnd avem un singur
ctigtor.
- metoda rangului clasic presupune c fiecare votant poate avea mai multe
opiuni de selecie. Se va selecta clasa cu numr maxim de voturi.
- metoda rank position: la fel ca n metoda Borda, fiecare clasificator va genera
o ordine a clasificrii. Scorul final al fiecrei clase va fi calculat utiliznd formula:
29
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(2.33)
- metoda Pareto fiecare votant va genera o ordine a preferinelor. Vor fi
considerate voturi valide doar primele k preferine ale utilizatorilor (fiecare vot valid va
avea o valoare egal). Se va selecta clasa care prezint numrul maxim de voturi valide.
Fuziunea scorurilor de ncredere va combina rspunsurile de ieire ale
clasificatorilor.
Avantajul acestui mecanism de fuziune const n faptul c fiecare descriptor va fi
antrenat n mod separat pe un clasificator potrivit. De asemenea, clasificarea are o vitez
mult superioar deoarece se efectueaz pe seturi de date de dimensiuni reduse.
Principalul dezavantaj const n faptul c se pierde eventuala corelaie obinut prin
concatenarea grupurilor de descriptori. O prim modalitate de definire a funciei f() este
aceea a unei combinaii liniare a scorurilor de relevan:
( ) (2.34)
( ) (2.35)
unde F(d) reprezint numrul de clasificatori pentru care documentul d apare n primele k
documente din punct de vedere al valorii de relevan (k este o constant stabilit a priori)
iar este un parametru de control.
n contextul diversificrii metodelor de extragere a trsturilor i a apariiei unui
numr ridicat de algoritmi de clasificare, fuziunea a devenit un domeniu de cercetare
foarte activ. Aceasta i propune s mreasc performana sistemelor de clasificare prin
agregarea deciziei din surse diferite de date, utiliznd o varietate de etape de clasificare.
Astfel, mecanismele de fuzionare exploateaz diversitatea informaiei provenit din surse
diferite.
Tehnicile de tip late fusion sunt mai avantajoase din punct de vedere
computaional, deoarece agregarea se face folosind dimensiunea iniial a descriptorilor.
Este mai eficient clasificarea unor descriptori de dimensiuni reduse i agregarea
rezultatelor dect clasificarea unui descriptor agregat de dimensiuni semnificativ mai
mari. Principalul dezavantaj al acestor metode este, totui, dat de pierderea eventualei
corelaii dintre descriptori, corelaie ce se obine n cazul concatenrii acestora i care
poate furniza un nivel de discriminare superior folosirii individuale a acestora.
30
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
n ciuda diferenelor dintre cele dou abordri, early fusion i respectiv late
fusion, nu exist o metod preferenial n defavoarea celeilaltei, ambele abordri
dovedindu-se eficiente n contexte diferite. Astfel c tehnica de fuziune a datelor rmne
dependent de aplicaie [35].
(2.37)
31
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(2.39)
(2.42)
(2.44)
32
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
33
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(2.48)
( ) (2.50)
34
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(a) (b)
Fig. 2.13 Interpretarea curbelor ROC: (a) Curba ROC al unui sistem ideal, (b)Curba
ROC a unui sistem cu performane foarte slabe
. / (2.51)
35
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
ImageClef
Competiia ImageClef (The CLEF Cross Language Image Retrieval Track) este creat
i ntreinut de ctre Cross Language Evaluation Forum (CLEF). Aceasta propune n
fiecare an diferite task-uri cu baze de date diferite. n 2012, au fost propuse 4 competiii:
clasificare de imagini medicale, adnotare de fotografii, identificare plante i Robot
Vision, fiecare coninnd la rndul lor mai multe task-uri.
Baza de date medical conine 305.000 imagini, extrase din articolele publicate n
diverse domenii medicale (radiografii i ecografii). Aceasta conine trei probe:
determinarea sursei imagini preluate (Modality Classification), regsire de imagini
dup anumite interogri (Ad-hoc image-based retrieval) i cutare imagini dup
concept (Case-based retrieval). Competiia de indexare de fotografii conine dou
probe: prima presupune detecia de concepte vizuale pentru imagini de pe Flickr, iar a
doua const n indexarea de imagini de pe Web.
Fig. 2.14 Exemple de imagini din baza de date Image CLEF: (a) imagini din competiia
de clasificare de fotografii (primele 3 imagini prezint conceptual de reflexie iar ultimele
dou conceptual de lumini n trafic) i (b) imagini cu plante pentru competiia de
identificare de tipuri de plante (surs imagini6)
6
: http://www.imageclef.org/
36
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Caltech
Prima baz de date Caltech a fost creat de ctre California Institute of Technology i
coninea 4300 de imagini naturale grupate n modul urmtor: 1074 avioane, 1155 de
maini, 450 oameni, 826 motociclete i 900 imagini generale. Apoi, n septembrie 2003,
aceasta a fost refcut de ctre Fei-Fei Li, Marco Andreetto, Marc Aurelio Ranzato i
Pietro Perona de la Caltech. Noua baz de date coninea 9146 imagini, mprite n 101
obiecte distincte (incluznd spre exemplu fee, ceasuri, crocodili, avioane furnici,
instrumente muzicale etc) i o categorie care conine imagini de background.
Fig. 2.15 Exemple de imagini din baza de date Image Caltech 101(surs imagine7)
7
http://www.vision.caltech.edu/
37
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Compeia Pascal
Fig. 2.16 Exemple de imagini din baza de date Image Pascal 2007(surs imagini8)
MediaEval
8
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
38
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 2.17 Exemple de documente video din baza de date MediaEval 2012 (Tagging
Task)(surs imagini9)
9
http://www.multimediaeval.org/
39
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Baza de date a fost mprit n dou pri: 15 filme de antrenare i 3 filme pentru
testare: Dead Poets Society (34 scene violente), Fight Club (310 scene violente) i
Independence Day(371 scene violente) un total de 715 scene violente (etichetarea
bazei de test a fost fcut public dup competiie). La competiie au participat un total de
8 echipe, care au susinut 36 de metode. Evaluarea s-a realizat att la nivel de scen ct i
la nivel de segment.
40
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 3
Metode clasice de descriere a
coninutului multimedia
Procesul prin care creierul uman nelege i percepe informaia vizual i auditiv nu este
n prezent pe deplin neleas. ns, cercetarea n acest sens arat c anumite trsturi i
informaii vizuale / auditive sunt mai importante n descrierea coninutului multimedia.
n cazul imaginilor, cele mai importante proprieti sunt: culoarea, textura, forma
obiectelor componente, colurile i frontierele obiectelor ce compun scena. O persoan
este capabil s perceap un obiect chiar dac acesta este parial opturat, sau n condiii
de vizibilitare redus. De asemenea, pentru auz, o persoan este capabil s neleag
anumite cuvinte pe care nu le poate aude prin utilizarea informaiei extrase din context.
Acelai lucru este posibil i la citirea unor propoziii n care unele cuvinte sunt ascunse
sau scrise n mod eronat, dar pe care le putem ntelege din context.
Acest capitol i propune s prezinte descriptorii multimedia dup coninut:
culoarea, forma, textura, punctele proeminente, descrierea fluxului video, trsturi audio
i de text.
Primele studii despre culoare au fost efectuate de ctre Newton [1], prin trecerea luminii
solare ntr-o prism de cristal, demonstrndu-se astfel dependena culorii de compoziia
spectral a luminii. O suprafa care reflect lumina, reflect independent fiecare
component spectral (fiecare frecven sau, echivalent, fiecare lungime de und). Atunci
cnd un obiect este iluminat, el va absorbi o parte din radiaia emis, iar o partea din
aceasta va fi reflectat. n funcie de suprafaa fiecrui material, dou obiecte difer prin
modul n care absorb, reflect sau transmit lumina atunci cnd sunt iluminate, prin
urmare ochiul uman vizualizeaz n mod diferit, deoarece primete o cantitate diferit de
lumin.
41
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
RGB
Modelul de culoare RGB este cel mai cunoscut, fiind aplicat n majoritatea dispozitivelor
electronice. Acesta este un model aditiv n care culorile rou, verde i albastru sunt
adugate mpreun n diverse cantiti pentru a reproduce o gam larg de culori. Numele
modelului vine de la iniialele celor trei culori aditive (Red, Green, Blue). Principalul
scop al modelului RGB fiind de a afia imagini n sistemele electronice (monitoarele sau
aparate foto). n sistemele de cutare dup coninut, acest spaiu de culoare este puin
utilizat deoarece conine un grad mare de corelare ntre cele trei componente. Culorile
sunt exprimate prin valori cuprinse ntre 0 i 255, genernd un numar de culori (24
biti per culoare). Din RGB au fost derivate diverse modele de culoare:
sRGB - spaiul de culoare RGB standard creat de HP
i Microsoft (monitor + Internet);
Adobe RGB - spaiul de culoare RGB creat de Adobe
Systems n 1998.
42
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
YCbCr
Familia de culori HSV conine mai multe tipuri de spaii de culoare: HSV (Hue (nuan),
Saturation (saturaie), Value (valoare)), HSB (Hue (nuan), Saturation (saturaie),
Brightness (strlucire)) i HSL (Hue (nuan), Saturation (saturaie), Lumination
(luminaie)). Principalul avantaj al acestor reprezentri este descrierea diferenelor de
culori ntr-o manier mai apropiat de sistemul vizual uman. n computer vision, spaiul
HSV prezint o performan de indexare mai bun n comparaie cu RGB.
(a) (b)
Fig. 3.3 Spaiul de culoare a familiei HSV (a) Cilindrul HSL (b) Cilindrul HSV (surs
imagine Wikipedia).
HSV este ideal pentru manipularea culorii deoarece separ intensitatea de nuan
i saturaie. H (hue) reprezint componenta spectral dominant, culoarea n forma cea
mai pur, ca de exemplu verde, rou sau galben. A doua component a culorii n spaiul
HSV este reprezentat de saturaie: adaugarea sau substracia de alb dintr-o culoare va
43
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
schimba intensitatea acesteia, mai precis va deveni mai mult / puin saturat. Componenta
value (V) corespunde luminanei culorii.
HMMD
HMMD (Hue Min Max Dif) [47] este un spaiu de culoare definit n MPEG-7. Prima
component de nuan de culoare are acelai neles ca n HSV, iar MIN i MAX
reprezint minimul i maximul n cadrul valorilor RGB. Componenta DIF este definit ca
diferena dintre valorile minime i maxime ale tripletei RGB. Doar trei dintre cele patru
componente sunt suficiente pentru descrierea coninutului de culoare, a patra component
putnd fi calculat automat din primele trei. De asemenea, se poate defini o a cincea
component Sum care reprezint suma componentelor Min i Max.
Interpretarea fiecrei componente din spaiul HMMD este distinct: nuana ia
valori n intervalul , la fel ca n cazul HSV, Max (n intervalul ) specific
ct culoare neagr este prezent, Min (n intervalul ) arat cantitatea de culoare, Dif
specific puritatea culorii albe (avnd o interpretare asemntoare cu a saturaiei), n timp
ce Sum specific luminozitatea culorii.
Sistemul de coordonate este reprezentat printr-un con dublu (Figura ). HMMD a
fost conceput datorit proprietilor similare cu spaiul HSV, ns are avantajul c este
mult mai rapid n procesul de calcul / conversie din spaiul RGB.
CIE Lab
Fig. 3.5 Sistemul de coordonate pentru CIE Lab (surs imagine Wikipedia).
( ( ) ( )) (3.2)
( ( ) ( )) (3.3)
unde reprezint albul pur iar funcia neliniar f este definit n modul urmtor:
2 (3.4)
45
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Color Naming
Acest model [48] conine 11 culori elementare care au aceeai semnificaie n toate
limbile pmntului: negru, albastru, maro, gri, verde, portocaliu, roz, purpuriu, rou, alb
i galben. Paleta de culori a fost antrenat i etichetat de ctre un grup extins de subieci
din diverse ri.
Figura 3.6 prezint cele 11 culori fundamentale:
(3.5)
unde c reprezint o culoare dintr-un spaiu de culoare ales, f(m,n) reprezint culoarea unui
pixel la locaia (m,n), iar M, N reprezint dimensiunea imaginii.
Pentru ca histograma sa aib o dimensiune ct mai scurt (lungimea maxim
poate fi 3x255) se recurge la discretizarea spaiului de culoare, iar apoi se numr de cte
ori o culoare discretizat se gsete n imagine. Pentru performane optime, trebuie ajuns
la un compromis ntre discretizare pe intervale mai mari sau pe intervale mai mici.
46
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 3.7 Ilustrare a variaia histogramei n cazul unor modificri minore de scen. Trei
imagini similare i histogramele acestora. Se observ c fundalul imaginii genereaz
diferene majore de histogram (surse imagini 10)
10
http://www.imdb.com/
47
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
trei momente de culoare pentru fiecare canal din spaiul de culoare (medie, variaia
standard i skewness):
Momentul de ordin 1: media de ordin 1
(3.6)
( ) (3.7)
( ) (3.8)
Pentru a msura distribuia spaial a culorii dintr-o imagine a fost propus un nou tip de
histogram n [51]. Aceast structur pleac de la premiza c un pixel din interiorul unei
regiuni uniforme trebuie interpretat diferit, fa de un pixel aflat ntr-o regiune de contur.
Practic, se vor calcula dou histograme: o histogram a pixelilor de tranzit i o
histogram a obiectelor uniforme. Histograma Color Coherence Vectors (CCV) previne
comparaia de pixeli care provin din regiuni incoerente cu pixeli din zone coerente de
culoare. Acest proces asigur o distincie fin ntre diverse tipuri de pixeli, ceea ce nu ar
fi fost posibil cu o histogram clasic de culoare. Algoritmul conine urmtorii pai de
calcul:
se aplic un filtru medie (blur) asupra imaginii, astfel nct micile variaii de culoare
ntre pixelii vecini s dispar;
se discretizeaz spaiul de culoare, astfel nct s avem n culori distincte;
se separ pixelii coereni de cei incoereni (dup diverse reguli) i se construiesc cele
dou histograme.
Histograma clasic este un descriptor statistic global care msoar intensitatea distribuiei
pentru o imagine dat. Principalul ei avantaj este uurina manipulrii, ns este foarte
48
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
sensibil la trecerea unei culori dintr-un interval de eantionare n altul (efect ce apare des
din cauza iluminrii, schimbrii contratului etc). Pentru a rezolva aceast problem, au
fost propuse mai multe metode inspirate din logica fuzzy [52] [53]. Pentru histograma
color de tip fuzzy, culorile aflate n intervale de eantionare apropiate aparin ntr-o
anumit msur ambelor intervale, acestea fiind modelate dup o funcie de tip fuzzy.
Fig. 3.8 Exemple de exemple de divizri ale spaiului suport al imaginii n vederea
calculului de histograme augmentate
Dup ce are loc mprirea imaginii n diverse pri componente, pentru fiecare
regiune se calculeaz un descriptor independent. n final, aceti descriptori vor fi agregai
ntr-un singur descriptor final. n cele mai multe cazuri, descriptorul final este alctuit
prin simpla concatenare a trsturilor descriptorilor. n [55] a fost propus un algoritm care
mparte imaginea ntr-un numr variabil de nivele de piramid spaial (Figura 3.9), iar
pentru calculul gradulului de similaritate dintre dou imagini a fost propus o funcie
nucleu.
Principalul dezavantaj al acestei metode se datoreaz sensibilitii la translaii i
rotaii.
49
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 3.9 Schem ilustrativ a reprezentrii prin piramide (surs imagine [55]). O
piramid reprezint o colecie de trsturi calculate pe nite regiuni apriori definite. La
nivelul 0, imaginea este mprit ntr-o singur regiune, trstura acesteia
corespunznd descriptorului global al imaginii.
50
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Primele studii au fost efectuate de ctre H. Tamura, S. Mori i T. Yamawaki n 1978 [56].
Ei au definit ase trsturi principale care caracterizeaz o textur: asprimea (coarseness),
contrastul (contrast), direcionalitatea (directionality), asemnarea liniar (line-likeness),
regularitate(regularity) i rugozitatea (roughness). Iniial, pentru a selecta aceste trsturi,
au efectuat un studiu pe un numr de subieci, care au analizat diferite proprieti de
textur. Acetia au selectat proprietile care sunt relevante pentru descrierea coninutului
de textur. Odata selectate, au fost propuse reprezentri matematice pentru fiecare
proprietate.
Asprimea prezint o relaie direct cu scala i rata de repetiie. Aceasta a fost
prezentat de Tamura ca fiind caracteristica cea mai important a texturilor. Asprimea i
propune s identifice cea mai mare poriune dintr-o textur n care texelul este prezent.
Matematic, se calculeaz media n fiecare punct n jurul unor vecinti care reprezint
puteri ale lui 2. Media vecintii de mrime ntr-un punct (x,y) este egal cu:
(3.9)
unde k reprezint raza vecintii, f(i,j) este valoarea pixelului la locaia (i,j), iar (x,y) este
punctul n care se calculeaz .
Dup calculul acestor vecinti n fiecare punct din imagine, se calculeaz
diferena dintre media vecintilor calculate dup orientri verticale i orizontale:
( ) (3.10)
Pentru fiecare punct, se va calcula mrimea lui K pentru care E devine maxim.
Asprimea se va defini apoi utiliznd formula:
(3.11)
51
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.12)
unde este momentul 4, iar reprezint variana valorilor pixelilor imaginii.
Direcionalitatea reprezint calculeaz gradul total de ordonare a texturii. Dou
mti simple sunt utilizate pentru a detecta marginile dintr-o imagine. Pentru fiecare pixel
este calculat unghiul muchiei, dup care este creat o histogram a marginilor, utiliznd
un prag pentru a identifica apartenena punctului la un tip de direcie. Marginile sunt
calculate utiliznd un filtru Sobel.
Apoi, direcionalitatea este calculat cu formula:
( ) (3.13)
unde np este numrul vrfurilor, este poziia celui de-al p-lea vrf, Wp este gama
unghiului atribuit celui de-al p-lea vrf, r reprezint un factor de normalizare, iar a
reprezint direcia.
Celelalte trei componente sunt strns legate de primele trei trsturi i nu aduc
noutate n descrierea texturii:
Rugozitatea se refer la variaiile tactile pe suprafaa fizic. O suprafa aspr
conine primitive angulare, n timp ce texturile netede conin primitive neclare (slab
delimitate). Formula de calcul este urmtoarea:
(3.14)
Regularitatea const n calculul gradului de variaie a texelilor. O textur regulat
este compus din primitive identice sau similare, aranjate ntr-un mod ordonat. O textur
neregulat este compus din diverse primitive, care sunt aezate n mod aleatoriu.
Formula de calcul a regularitii este urmtoarea:
(3.15)
unde r este un factor de normalizare (de obicei r = ) i reprezint gradul de
variaie a caracteristicii .
Asemnarea liniar este definit ca media direciilor unghiurilor ce apar n
perechi de pixeli, separai de o distan d.
52
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.17)
(3.18)
unde , , ,
Entropia:
(3.19)
Energia:
(3.20)
Omogenitate:
(3.21)
Moment de ordin 3:
(3.22)
Variana invers:
(3.23)
Sum medie:
53
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.24)
Variana:
[ ] (3.25)
Tendina clusterului:
(3.26)
3.2.4 Corelograma
54
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.28)
(3.29)
. / (3.30)
valorile mai mari ale izosegmentelor vor contribui mai mult la calculul acestei trsturi
neuniformitatea lungimilor plajelor (Run Length Non-Uniformity)
. / (3.31)
(3.32)
55
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Chu a introdus dou trsturi adiionale: Low Gray Level Emphasis (LGRE) i
High Gray Level Emphasis (HGRE):
(3.33)
(3.34)
(3.35)
(3.36)
(3.37)
(3.38)
(3.39)
. / (3.40)
( ) (3.41)
(3.42)
(3.43)
(3.44)
56
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.45)
unde reprezint imaginea cu un singur pixel de culoare la locaia (k,l), iar V(k, l)
sunt coeficienii dezvoltrii n serie. O transformare unitar reprezint un operator
integral caracterizat prin faptul c valoarea fiecrui pixel din imaginea final depinde de
valorile tuturor pixelilor din imaginea pixelilor.
Transformatele unitare prezint anumite proprieti:
Energia semnalului se conserv printr-o transformare unitar;
Energia medie a semnalului se conserv printr-o transformare unitar;
Entropia unui vector cu componente aleatoare se conserv printr-o transformare
unitar:
( | ) ( | ) (3.46)
Coeficienii din spaiul transformatei sunt decorelai sau aproape decorelai.
Transformata optim, care compacteaz maximumul de energie ntr-un numr dat de
coeficieni i care n acelai timp decoreleaz complet, este transformarea Karhunen-
Loeve.
Transformata Fourier
Transformata Fourier se aplic unei funcii complexe i produce o alt funcie complex
care conine aceeai informaie ca funcia original, dar reorganizat dup frecvenele
componente. De exemplu, dac funcia iniial este un semnal dependent de timp,
transformata sa Fourier descompune semnalul dup frecven i produce un spectru al
acestuia. Acelai efect se obine dac funcia iniial are ca argument poziia ntr-un
spaiu uni sau multidimensional, caz n care transformata Fourier relev spectrul
frecvenelor spaiale care alctuiesc funcia de intrare.
n cazul prelucrarii de imagini, se utilizeaz transformata Fourier Discret
bidimensional unitar. Transformata Fourier bidimensional, pentru o imagine de
dimensiune NxN, se calculeaz cu formula urmtoare:
57
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.47)
unde f(a,b) este imaginea n domeniul real, iar F(k,l) reprezint mediul transformat.
ntr-un mod similar, se calculeaz transformata Fourier invers:
(3.48)
Transformarea Gabor
[ ] (3.49)
unde
* + * + (3.50)
Operatorul Localy Binary Patterns (LBP) a fost prima dat introdus de ctre Ojala [62].
Acesta eticheteaz pixelii unei imagini n valori binare, prin prguirea vecintii fiecrui
58
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.51)
complexe, compuse din mai multe regiuni deconectate sau din obiecte ce conin guri.
Aceste trsturi sunt rezistente la erori de segmentare a imaginilor sau la zgomot gen
sare i piper. Cei mai cunoscui algoritmi bazai pe regiuni sunt: momente geometrice,
momente Legendre, momente Zernike i momente pseudo-Zernike.
n schimb, algoritmii de descriere a formelor prin contur utilizeaz informaia
spaial extras din linia de contur a obiectului. Exemple de algoritmi de descriere a
formelor prin contur sunt: descriptorii Fourier de contur si algoritmii de aproximare
poligonial.
3.3.1 Momentele Hu
Iniial, pentru descrierea formelor, au fost propuse momentele spaiale. Pentru o imagine
binarizat, momentul spaial de ordin (m,n) este definit de formula:
(3.52)
(3.53)
Momentele Zernike au fost propuse pentru prima dat de ctre Teaque i utilizeaz
principiul polinoamelor ortogonale Zernike [66]. Poligoanele Zernike au fost utilizate
pentru prima dat n descrierea formelor 1990 [67]. Un polinom tipic Zernike este
exprimat de ctre formula:
(3.54)
unde R este baza radial ortogonal:
(3.55)
( ) ( )
60
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.56)
Descriptorii Fourier de contur sunt obtinui prin aplicarea transformatei Fourier asupra
punctelor aflate pe conturul obiectelor [68]. Algoritmul de calcul al descriptorului conine
urmtorii pai:
se obin coordonatele de contur ale obiectelor
se calculeaz coordonatele centroidului acelui obiect i apoi distana dintre acesta
i contur utiliznd, distana euclidian
(3.58)
unde t = 0,1, N-1, iar i
se aplic transformata Fourier 1D asupra semnalului r(t):
( ) (3.59)
Aproximarea poligonal este una dintre cele mai populare metode de reprezentare a
formelor. Ideea principal a algoritmului const n reprezentarea siluetei printr-un set de
segmente de dreapt. Mai precis, se elimin formele redundante i insignifiante. Metoda
caut punctele de contur i le elimin pe cele ale cror eroare ptratic are o valoare
minim. Exist dou tipuri de calcul utilizate n prezent: metoda evoluiei conturului [69]
i metoda deteciei de coluri utiliznd transformate wavelet [70]. Metoda evoluiei
conturului reduce influena zgomotului i simplific forma, eliminnd caracteristicile
irelevante ale formei. Iniial, forma este privit ca o iniruire de segmente de dreapt,
dup care perechile de segmente sunt comasate ntr-un singur segment.
61
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.60)
unde (s1, s2) reprezint unghiul dintre cele dou segmente, iar l(s) reprezint lungimea
segmentului normalizat la perimetrul formei.
Procesul nceteaz atunci cnd valoarea parametrului K este mai mare dect un
prag ales. Metoda evoluiei curbei pleac de la premiza c formele au diverse distorsiuni,
iar acestea trebuie nlturate printr-un process de netezire. Netezirea depinde foarte mult
i de alegerea pragului de lefuire. n final, fiecare poligon este reprezentat ca o funcie
tangenial (tangenta unghiului format de axa orizontal i segmentul de dreapt).
Histograma de orientare a gradientilor (HOG) [71] este un descriptor utilizat pentru prima
data de ctre cercetatorii INRIA, Navneet Dalal i Bill Triggs. A fost propus n contextul
problemei de detecie de pietoni. Tehnica const n calculul apariiei de orientri de
gradient, localizate ntr-o anumit parte a imaginii.
Iniial, imaginea este mprit n regiuni spaiale mici (celule) care pot avea
diverse forme (radiale sau rectangulare). Pentru fiecare celul, se calculeaz o histogram
a direciilor gradienilor. Pentru imagini color, se vor calcula gradienii pe fiecare canal
de culoare independent (Lab sau RGB). Histogramele sunt ponderate n functie de
anumii parametri: magnitudine, ptratul magntudinii, prezena / absena muchiilor etc.
Pentru corectarea erorilor provocate de schimbarea iluminrii i zgomot, se efectueaz
anumite corecii pe fiecare bloc n parte: corecie de gam i egalizare de histogram.
Au fost propuse diverse extensii pentru histograma de orientare a gradienilor i
anume: histograma piramidal de orientare a gradienilor (Pyramidal HOG (PHOG) [72])
i histograma 3D de orientare a gradienilor (3D HOG [73]).
n primele seciuni din acest capitol am prezentat algoritmi ce descriu informaia global
a unei imagini. ns, pentru probleme n care este necesar recunoaterea de obiecte,
aceti algoritmi ating o performan sczut, deoarece nu reuesc s extrag trsturile
care sunt caracteristice unui obiect. Practic, descriptorii globali nu separ informaia de
fundal de cea a obiectelor constituente. Din acest motiv, au fost propui o serie de
algoritmi care extrag punctele de interes ale obiectelor (keypoints). Mai exact, aceti
algoritmi extrag o serie de regiuni care conin informaie discriminatorie mai ridicat.
62
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Apoi, fiecare punct de interes va fi descris cu ajutorul unui descriptor. i astfel, fiecare
imagine va fi descris de un set de descriptori. Punctele de interes reprezint regiuni bine
definite din spaiul imaginii, care au o valoare descriptiv ridicat. Odat extrase,
punctele de interes vor fi utilizate n procesri ulterioare. Punctele de interes au
proprietatea de a fi stabile n cazul anumitor perturbaii, ca se exemplu: rotaii, scalare,
distorsiuni geometrice, zgomot, variaii de iluminare.
Pentru a calcula gradul de similaritate dintre dou imagini este necesar s se
calculeze numrul de puncte de interes similare. Iniial, distana dintre dou puncte de
interes a fost calculat cu distana euclidian. Aceast metod este una intens
computaional, deoarece are complexitatea O(mnp), unde m i n reprezint numrul de
puncte de interes a celor dou imagini care sunt comparate, iar k este lungimea
descriptorului unui punct de interes. Din acest motiv, au aprut tehnici noi de aproximare
a similaritii, cea mai cunoscut dintre ele fiind algoritmul k-nearest neighbors [74].
Dup modul de aranjare spaial a punctelor cheie, algoritmii de extragere a
trsturilor locale se mpart n dou categorii: algoritmi care extrag puncte cheie la
intervale regulate din imagine (dense extraction extragere dens) (Figura 3.13 a) i
algoritmi care extrag numai regiunile cu zone proeminente, considerate a fi cu mai mult
informaie discriminatorie (Figura 3.13 b). Dintre aceste metode, nu exist o metod
preferenial n defavoarea celeilaltei, ambele abordri dovedindu-se eficiente n contexte
diferite. Mai precis, un algoritm de extracie dens a punctelor cheie poate obine
performane superioare n cazul n care informaia de fundal este foarte important. Spre
exemplu, n competiia Pascal, exist 20 de clase care sunt dependente de context:
avioanele apar de obicei n imagini cu nori, animalele sunt prezente ntr-un spaiu natural,
iar obiectele de mobilier sunt localizate n interiorul unor camere. La extracia dens,
calculul poziiei punctelor cheie este mult mai rapid, ns numrul de descriptori extras
este mult mai ridicat, ceea ce compeseaz timpul ctigat pentru extracie.
(a) (b)
Fig. 3.13 Exemple de metode de extragere a punctelor de interes: (a) extracie dens i
(b) extracie a regiunilor proeminente
63
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
* + (3.65)
Se va crea o histogram de orientri i se vor reine acele valori maxime,
mpreun cu punctele care conin minim 80% din valoarea maxim gasit (eliminandu-se
astfel peste 95% din punctele extrase n procesul anterior).
Dup calculul extremelor, vor fi eliminate punctele cu contrast sczut i muchii
mai puin ieite n eviden. Punctele rmase reprezint punctele de interes ale imaginii.
Acestea sunt invariante la scalarea imaginii sau la adugarea diferitelor forme de zgomot.
Un descriptor al unui cuvnt cheie reprezintun vector cu 128 de dimensiuni (un byte
pentru fiecare trstur).
Un descriptor al unui punct cheie va fi calculat pe o vecintate de 16x16 pixeli.
Valorile de nivel de gri vor fi ponderate cu o fereastr gaussian, iar apoi aceas
vecintate va fi mprit n 4X4 subregiuni. Pentru fiecare subregiune, se va reine o
histogram de orientri.
Pentru mbuntirea vitezei algoritmului, a fost propus PCA-SIFT [76]. Acesta
aplic analiza componentelor principale (PCA) asupra vectorului descriptor a unui punct
de interes. Descriptorul va avea o dimensiune mult redus fa de a descriptorului SIFT
clasic (de la 128 la 20-36 dimensiuni), ceea ce duce la o cretere considerabil a vitezei
de comparaie dintre dou imagini. O alta extensie a SIFT este GLOH (Gradient
location-orientation histogram) [77], ce calculeaz descriptorii SIFT utiliznd
coordonate polare.
64
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
* + (3.68)
unde L(x,y,) reprezint filtrul laplacian de gausian (Laplacian of Gaussian).
Dimensiunea descriptorului SURF poate fi mai mic sau egal dect cea a
vectorului SIFT (64 sau 128 de numere de tip float).
65
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.70)
Modelul Bag of Words (BoW) reprezint un algoritm utilizat pentru prima dat n
clasificarea documentelor text [85]. n cadrul acestui model, se selecteaz un set de
cuvinte reprezentive, numit vocabular, iar apoi pentru fiecare document text se creeaz
o histogram de apariie a cuvintelor. Aceste histograme sunt apoi clasificate cu ajutorul
unor algoritmi de clasificare. Plecnd de la acest algoritm de baz, modelul BoW a fost
transferat n diverse domenii de computer vision: clasificare de imagini [86], documente
audio [87] i video, clasificarea i recunoaterea de aciuni [88].
n cele ce urmeaz, vom prezenta modelul BoW pentru clasificarea imaginilor.
Ideea principal const n faptul c punctele cheie dintr-o imagine (keypoints) sunt
considerate a fi similare cuvintelor din documentele text. Vectorul descriptor va conine o
histograma de apariie a cuvintelor dintr-o imagine, dup care aceste histograme vor fi
66
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
clasificate cu ajutorul unor clasificatori. Noul algoritm poart numele de Bag of Visual-
Words (BoVW) [86]. n acelai timp, algoritmul BoVW este inspirat din sistemul uman
de recunoatere a formelor. O persoan poate recunoate anumite obiecte chiar dac
vizualizeaz numai anumite pri componente ale obiectului.
Antrenarea algoritmului BoVW conine patru pai principali: extragerea de
cuvinte vizuale dintr-un set extins de imagini, crearea vocabularului de cuvinte vizuale,
calculul de histograme de cuvinte i antrenarea unui clasificator. Schema de antrenare a
unui sistem BoVW este prezentat n Figura 3.14. Iniial, se extrag cuvintele cheie dintr-o
imagine utilizand diveri algoritmi: SURF, SIFT, HARRIS etc. Aceste puncte cheie sunt
adugate ntr-un vector de cuvinte cheie. Apoi, se va reduce numrul de cuvinte cheie
prin utilizarea anumitor algoritmi de clusterizare: kmeans, clusterizare ierarhic, cam-
shift etc. Fiecare centroid rezultat va fi considerat un cuvnt dintr-un vocabular de
cuvinte vizuale.
Numrul cuvintelor din vocabular difer n funcie de aplicaie de la cateva mii
[89], pn la sute de mii [90], [91]. Generarea unui dicionar vizual reprezint un proces
foarte costisitor. Din acest motiv, au fost propuse metode n care vocabularul de cuvinte
vizuale este generat n mod artificial. n [91] s-a demonstrat c, n cazul n care
dimensiunea vocabularului este suficient de mare (ordinul zecilor de mii), impactul
alegerii modalitii de selecie a vocabularului devine mai puin important.
67
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
68
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
69
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Acest descriptor [47] este util n reprezentarea obiectelor i a regiunilor din imagine, unde
un numr redus de culori este necesar pentru descrierea regiunii de interes. Imaginea este
mprit pe mai multe regiuni i sunt extrase un numr redus de culori pentru fiecare
regiune n parte. Acest descriptor arat n acelai timp i gradul de coeren a culorii din
imagine.
Culorile dintr-o regiune dat sunt clusterizate ntr-un numr redus de culori.
Descriptorul va conine culorile reprezentative, procentajul i variana acestora. Pentru
msurarea distanelor este definit o distana ptratic dintre histograme. De asemeni
culorile pot fi indexate direct n spaiul 3D. Pentru cutarea similaritii se vor cuta
imaginile cu regiuni similare. La final descriptorul calculat va avea urmtoarea structur:
{ } (3.74)
unde c, p i v reprezint culoarea dominant, procentajul i variana, iar s este un
parametru de calcul a omogenitii totale a culorii.
Numrul de culori dominante variaz de la o imagine la alta i un numr de
maxim 8 culori sunt utilizate pentru reprezentarea unei regiuni. Metoda de clusterizare a
culorii este bazat pe algoritmul de clusterizare a lui Loyd [1], al crui principiu este cel
de minimizare al erorii din fiecare cluster:
(3.75)
unde este centrul centroidului , x(i) culoarea pixelului din regiune, pondere a
pixelului curent (valoare mai mare pentru regiuni texturate dect pentru regiuni neclare
(blurate)).
Fie doi descriptori de culoare:
{ } (3.76)
{ } (3.77)
Distana dintre cei doi descriptori va fi calculat cu formula:
70
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.78)
unde , -
Color Layer Descriptor [47] a fost creeat pentru a reine distribuia spaial a culorii dintr-
o imagine, acesta putnd fi interpretat ca o schi a imaginii. Codarea are doi pai:
transformarea imaginii n form dreptunghiular cuantizat (64 de blocuri)
cuantizarea cu ajutorul tranformatei DCT.
Transformata DCT, n special tipul bidimensional, este foarte utilizat n studiul
sunetului i al imaginilor, n special pentru algoritmii de compresie. Transformata DCT
beneficiaz de o excelent capacitate de concentrare a energiei: informaia unui semnal
fizic tipic este repartizat n principal pe coeficienii corespunznd armonicelor de joas
frecven (statistic vorbind). Pentru imaginile naturale, DCT este transformata care se
apropie cel mai mult de transformata Karhunen-Love care ofer o decorelaie optimal
ntre coeficienii reprezentrii unui semnal markovian. Din punct de vedere practic,
procedeele de compresie pleac de la ipoteza ca o imagine natural poate fi modelat ca
fiind rezultatul unui proces markovian i aproximeaz transformata Karhunen-Love,
prea complex din punct de vedere algoritmic i dependent de date, cu o DCT.
[ ( ) ] (3.79)
(3.80)
71
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Acest descriptor [47] implementeaz trei dintre cei ase descriptori de textur Tamura,
prezentai anterior n cadrul capitolului 3.2.1. Trsturile implementate sunt: asprimea,
contrastul i direcionalitatea.
Histograma marginilor [47] capteaz distibuia spaial a muchiilor din interiorul unei
imagini. Distribuia marginilor este o bun semnatur de textur i este util n cutarea
de imagini. Calculul descriptorului este uor de realizat: marginile sunt grupate n cinci
categorii: verticale, orizontale, diagonala 135, diagonala 145 i izotropic, iar pentru
fiecare tip de margine vom avea un interval ntr-o histogram de muchii. Imaginea va fi
mprit n 16 imagini (4x4), fiecare histogram avnd cinci intervale, de unde vom avea
5x16 = 80 intervale. Procedeul poate continua printr-o mparire mai detaliat a imaginii.
Procedeul de mprire n subblocuri este prezentat n figura urmtoare:
72
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.81)
unde f este imaginea n coordonate polare iar este funcia ART:
(3.82)
iar
(3.83)
{ (3.84)
n MPEG 7 sunt utilizate un set de 12 funcii angulare i 3 funcii radiale (n<3 i
m<12). Familia de funcii ART prezint anumite avantaje. Acestea sunt capabile s
descrie forme complexe care conin zone necompactate, fiind robuste la zgomotul de
segmentare. De asemenea, dimensiunea acestora este redus i prezint o vitez de calcul
ridicat.
Descriptorul de contur utilizat de ctre standardul MPEG 7 este Curvature Scale
Space [102]. Reprezentarea Curvature Scale Space este bazat pe reinerea poziiei
punctelor de inflexiune de pe contur, filtrate de o funcie trece-jos gausian gausian
[103]. Metoda este similar cu tehnica de aproximare polinomial, descris n capitolul
anterior. Primul pas este calculul conturului suprafetei (x(t), y(t)). Apoi se normalizeaz
conturul la un numr finit de puncte de margine. Ca i la aproximarea polinomial se
calculeaz o funcie pentru fiecare punct care exprim gradul de importan a punctului
respectiv
(3.85)
73
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
75
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Modelul Bag of Words utilizat n aceste metode prezint anumite avantaje foarte
importante, acesta fiind robust la zgomot sau la ocluziuni. ns, n ciuda popularitii sale,
algoritmul BoW prezint anumite neajunsuri evidente. n primul rnd, reprezentarea
BoW utilizeaz descriptori de nivel sczut pentru descrierea unor informaii cu un nivel
semantic ridicat. n al doilea rnd, relaia spaial dintre punctele de micare este ignorat
n totalitate. Mai mult, prin procesul de creare a dicionarului, iar apoi prin asocierea
unui punct de interes la un cuvnt din dicionar, se creeaz un zgomot de cuantizare care
genereaz o pierdere major de informaie.
Pentru a evita aceste probleme, n ultimii ani au fost propui diferii algoritmi care
utilizeaz detecia de pri componente ale corpului [110]. Apoi, pentru fiecare parte
component a corpului este descris micarea acestuia, iar n final, aceste componente
vor fi concatenate i se va construi un descriptor agregat.
76
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(a) (b)
Fig. 3.20 Modaliti de mprire a semnalului audio: (a) mprire n frameuri i (b)
mprire cu ajutorul ferestrelor
77
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
( )
{ (3.87)
(3.85)
unde x() este semnalul audio iar w() reprezint funcia fereastr Hamming.
(3.86)
Autocorelaia
Autocorelaia calculeaz gradul de corelare ntre coeficienii aflai n cadrul
aceluiai cadru, utiliznd formula de urmtoare:
(3.87)
78
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Alte trssturi care pot fi extrase din blocuri de semnal audio sunt:
Energia [111]:
(3.88)
(3.92)
Frecvena fundamental Pitch
Frecvena fundamental este o trstur foarte important pentru analiza audio, n
special n recunoaterea vocii umane i reprezint frecvena principal a unui semnal
audio complex.
Coeficienii Mel-frequency cepstral
Coeficienii Mel-Frequency Cepstral (MFCCs) reprezint o tehnic des ntlnit
n procesarea semnalului vocal [112]. A fost folosit prima data pentru clasificarea
semnalului vocal de ctre [113], ca apoi s devin un standard pentru clasificarea de
documente audio [114] .
Algoritmul de calcul a coeficienlor MFCC conine urmtorii pai:
- fiecare cadru este multiplicat cu o fereastr Hamming;
- pentru fiecare frame se aplic transformata Fourier Discret (STFT). Se rein doar
valorile absolute ale frecvenelor pentru fiecare bin. Valorile de faz nu se rein
deoarece urechea uman este mai puin sensibil la componenta de faz fa de cea a
magnitudinii [115];
- valorile frecvenelor sunt mapate pe scara Mel. Aceast scar modeleaz sistemul
auditiv uman, care presupune o scar liniar pn la 1000 Hz, ca apoi aceasta s
devin logaritmic [116]. De asemenea, transformarea Mel este utilizat pentru
reducerea dimensionalitii: n frecvena normal numrul de valori posibile pentru
79
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
spectru este n intervalul [256, 1024], iar acestea sunt mapate pe un numr redus de
bande Mel. Acest lucru are o justificare biologic, urechea uman distinge numai
cteva frecvene numite benzi critice [117];
- se aplic transformata cosinus i se rein primele conponente ale transformrii;
- deoarece MFCC nu sunt foarte robuti la zgomotul aditiv, se aplic diferite strategii
de normalizare.
Dup calculul trsturilor pe fiecare bloc n parte, este nevoie de o metod de
agregare a acestora ntr-un singur descriptor. O prim abordare care trebuie luat n
considerare este agregarea acestora prin utilizarea mediei i dispersiei acestora, sau a
altor parametri statistici [118]. Alte metode utilizeaz modelul Bag-of-Words [87] sau
distana Earth Mover [30].
Ultimul bloc al unui sistem de clasificare audio este cel de antrenare i clasificare
a sistemului. n literatur, au fost folosii diferii algoritmi, de la utilizarea clasificatorului
SVM [119] [120], Nearest Neighbor [120] i a modelului Hidden Markov Model [114]
pn la hri cu autoorganizare [121].
n prezent, informaia audio reprezint o component important a multor aplicaii
multimedia. Ca tendin general a sistemelor existente, se poate meniona faptul c
informaia audio este folosit cu predilecie pentru caracterizarea coninutului specific de
gen a documentelor video sau audio i pentru detecia anumitor particulariti specifice
(de exemplu, detecia de violen). Este un lucru tiut c anumite genuri de film / muzic
conin o semntur audio specific: documentarele utilizeaz un amestec de sunete
naturale i monologuri, sporturile au n componen monologurile prezentatorilor sau un
anumit zgomot de fond al telespectatorilor, n timp ce emisiunile politice conin dialoguri
ntre diverse persoane. Totui, n domeniul indexrii dup coninut a documentelor
multimedia, metodele bazate exclusiv pe audio sunt foarte puine. Acest lucru se
datoreaz, n principal, faptului c informaia audio, analizat individual, nu conine
sucient putere discriminatorie pentru a oferi o caracterizare global a coninutului. Din
aceast cauz, n marea majoritate a metodelor de analiz existente, informaia audio este
folosit prin fuziune cu alte canale informaionale (vizual sau cea textual).
80
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
web, filtrarea mesajelor spam, identificarea categoriei unui document i chiar rezumarea
automat a coninutului. Domeniul de adnotare automat a textului este unul atractiv
deoarece elibereaz companiile de nevoia de a organiza documentele n mod manual,
ceea ce poate fi un proces costisitor sau nerealizabil datorit constrngerilor de timp a
aplicaiei sau a numrului de documente implicate. n prezent, acurateea sistemelor de
clasificare de text actuale rivalizeaz chiar i cu metodele de adnotare manual. n cadrul
acestui capitol voi trata arhitectura general a unui sistem de clasificare de text.
Un sistem clasic de detecie i clasificare a textului conine trei pai principali:
preprocesarea, extragerea de trsturi i antrenarea unui sistem de clasificare. Schema
general este prezentat n Figura 3.22.
Preprocesarea
81
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
82
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(3.95)
unde funcia sum() reprezint suma frecvenelor de apariie a documentului.
Reprezentarea logaritmic [123]: frecvena este scalat pe o scar logaritmic:
{ (3.96)
Reprezentarea Invers Document Frequency (IDF) [123] valorile sunt
ponderate n funcie de frecvena apariiei termenului n colecia de documente:
(3.97)
Reprezentarea Term Frequency Invers Document Frequency (TF-IDF)
[123]:
(3.98)
Reprezentarea TFC [124]: utilizeaz formula TF-IDF, ns este adugat o
mprire a magnitudinii vectorului documentului interogat. Acest lucru
normalizeaz scorul fiecrui cuvnt din fiecare articol, eliminnd astfel efectele
diferenelor legate de lungimea distinct a acestora.
(3.99)
Reprezentarea LTC [125]: reprezint o form modificat pe o scar logaritmic a
reprezentrii TFC:
(3.100)
Reprezentarea entropic: reprezint o form mai sofisticat de ponderare:
( [ ( )]) (3.101)
83
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
n ceea ce privete ultimul bloc al unui sistem de clasificare de text, au fost propui mai
muli algoritmi de antrenare i clasificare. O prim abordare folosit este cea a
algoritmilor statistici, n special Nave Bayes [127]. Clasificatorii text Nave Bayes se
disting prin vitez, acuratee mare de clasificare i simplitatea implementrii. Acesta a
fost folosit cu succes att n probleme de categorizare, ct mai ales n aplicaii de filtrare
a mesajelor de tip spam.
Un alt algoritm de clasificare utilizat este Nearest Neighbor (KNN). Pentru o
interogare, acesta folosete media distanelor cosinus dintre documentul de interogare i
documentele din baza de antrenare. Documentul va fi atribuit clasei la care distana medie
calculat are valoare minim. SVM este un alt exemplu de clasificator care lucreaz
eficient pentru clasificarea documentelor text [128]. Acesta poate manipula seturi mari de
date, neseparabile liniar. Algoritmul SVM construiete o funcie de mapare direct ntre
mulimea termenilor i variabilele de clas din cadrul etapei de antrenare. Apoi, acesta
construiete un hiperplan de separaie ntre documentele de antrenare ce aparin unor
clase diferite. Ali algoritmi utilizai pentru clasificarea documentelor text sunt LDA,
reele neurale i arbori de decizie [126].
Domeniul de clasificare i regsire a documentelor web are o istorie de peste 40
de ani. n ultimii ani, s-a intensificat activitatea de cercetare privind construcia semantic
unei arhitecturi de web, adic informaia despre coninutul web este stocat la un nivel
superior, iar acesta va sta la baza viitoarelor sisteme de cutare a coninutului paginilor
web. n acest moment, clasificarea documentelor web asigur o acuratee mare pentru
extragerea automat a sensului semantic a paginilor web, iar aceste informaii pot fi
utilizate pentru a genera o ierarhie ontologic a datelor web.
3.9 Concluzii
n acest capitol am discutat diversele modalitai de analiz i caracterizare a coninutului
multimedia. O prim component de descriere a trsturilor este canalul vizual, care
cuprinde informaia de culoare, form, puncte de interes i micare. Culoarea este cea mai
expresiv dintre toate componentele vizuale de culoare. Un rol important n analiza de
culoare l are spaiul de reprezentare al culorilor folosit. Acesta trebuie selectat astfel
nct s pun n eviden anumite proprieti caracteristice problemei. Astfel, spaiile de
culoare evolueaz de la reprezentrile clasice precum RGB (utilizat de ctre majoritatea
dispozitivelor hardware), pn la cele inspirate de sistemul vizual uman (HSV, Lab,
HMMD), astfel nct acesta s reflecte nivelul semantic de descriere universal, precum
spaiul Color Naming.
Pe de alt parte, descrierea informaiei de textur caracterizeaz anumite aspecte
de structur ale suprafeelor, precum: asprimea, contrastul, direcionalitatea, asemnarea
84
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
85
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
86
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 4
87
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
88
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
- dezechilibru ntre numrul de documente pozitive i negative. De cele mai multe ori
numrul de documente relevante este foarte mic, iar sistemul se afl n imposibilitatea
de a nva. Aceeai problem apare i atunci cnd nu exist documente nerelevante;
- viteza algoritmului (sistemul trebuie s rspund n timp real).
nvarea de lunga durat (Long-Term Learning) [137], poate realiza
performane superioare fa de tehnicile tradiionale de relevance feedback. Avantajul
acestor algoritmi este c nltur problemele de dezechilibru de acordare a feedback-ului,
prin utilizarea feedback-ului preluat n sesiuni anterioare de ctre utilizatori diferii.
Feedback-ul este stocat de cele mai multe ori n fiiere de loguri, i prezint o structur
asemntoare unor matrici de relaie ntre documente. De obicei, dimensiunea matricei
este una ridicat. Din acest motiv, multe metode propuse utilizeaz algoritmi de reducere
a dimensiunii matricei de loguri, utiliznd de exemplu analiza componentelor principale,
sau alte metode statistice.
Principalele limitri ale unui astfel de sistem sunt:
- algoritmii sunt greu de implementat pe sisteme n care documentele sunt frecvent
adugate sau terse;
- performana depinde mult de cantitatea de feedback anterior stocat. De preferat n
acest caz ar fi o combinaie ntre o strategie de invaare de lung durat cu una de
scurt durat;
- neomogenitatea feedback-ului acordat (nu toate imaginile din baza de date primesc
feedback). O implementare care incearc s elimine problema se gasete n [138];
- procesul trebuie realizat n sisteme real-time i s prelucreze volume mari de date ale
unui numr mare de utilizatori, cu un numr ridicat de elemente semantice. Fiecare
proces presupune o reantrenare a sistemului pentru noile cutari care vor urma. Din
acest punct de vedere este necesar mprirea bazei de date n ierarhii arborescente.
(4.1)
89
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 4.1 Ilustraie a algorimului lui Rocchio (punctul de interogare este mutat spre
centroidul clasei cutate)
(4.2)
(4.3)
( ) (4.4)
unde i
90
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
( ) (4.5)
unde i
r indic numrul de documente relevante care conin termenul iar i reprezint
numrul de documente relevante / nerelevante care conin termenul , R i N sunt
numrul de documente relevante, respectiv nerelevante pentru interogarea Q.
91
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(4.11)
92
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
unde r reprezint numrul de documente relevante pentru interogarea curent, care conin
elementul i, R este numrul total de documente relevante pentru interogare, n numrul de
documente care conin elementul i, N numrul total de documente din baza de date
( | )
(4.13)
2) Se alege apoi clasa j care maximizeaz P( | ) P( ). Pentru uurina
modelului matematic, se presupune c fiecare atribut este independent de cellalte
atribute:
( | ) (4.14)
3) Vom estima probabilitile P(Ak| ) pentru toate atributele Ak i clasele , astfel
nct un obiect nou, necunoscut, va fi clasificat n clasa , dac probabilitatea
corespunztoare acestei clase este maxim fa de cellalte.
Exist dou tipuri de variabile pentru care se calculeaz aceste probabiliti: prin
utilizarea de tipuri de date de tip enumerare i a tipurilor de date numerice.
Pentru coloane cu date de tip enumerare alegem:
93
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(4.15)
unde | | reprezint numrul instanelor n care atributul aparine clasei .
Cea mai frecvent situaie este aceea n care atributele vectorului au valori
numerice. n acest caz, se aproximeaz c variabilele iau forma unor anumite distribuii,
calculate cu urmtoarele formule:
( | ) ( ) (4.16)
unde reprezint media iar deviaia standard a unei distribuii normale, iar acestea
respect relaiile:
( )
( | ) . / (4.17)
unde reprezint parametru de scal iar parametrul de form a unei distribuii log-
normale i .
( )
( | ) ( ) (4.18)
unde b reprezint un parametru de scal iar c este parametrul de form a unei distribuii
Gamma i
( | ) (4.19)
unde indic media unei distribuii Poisson, iar .
De asemenea, n funcie de aceast abordare, se pot schimba i formulele de
calcul ale probabilitilor de verosimilitate:
(4.20)
( | )
unde P(T=Ti) reprezint probabilitatea aprioric i este de obicei egala cu 1/numrul de
imagini din baza de date, reprezint verosimilitatea calculat cu formula:
94
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(4.21)
Un alt sistem care utilizeaz Nave Bayes n relevance feedback este BALAS
[147]. Algoritmul lui Bayes este utilizat n procesul de separare dintre imaginile alese
relevante si nerelevante. Probabilitile posteriori pentru ca o imagine s fie relevant sau
nerelevant se vor defini ca:
(4.22)
(4.23)
unde P(R) + P(I) = 1 reprezint probabilitile apriori (calculate pentru imaginile crora
li se acord feedback ) iar sunt verosimilitile. Imaginea Imgi este descris
de un descriptor de lungime , deci va deveni:
(4.24)
fiecare component fiind apoi calculat asemeni unor variabile aleatoare ce aparin unor
distribuii gausiene:
( | ) ( ) (4.25)
unde i
n cazul n care dispersia unei imagini depete un anumit prag se consider c
parametrul respectiv nu este reprezentativ pentru imaginile cutate.
Reelele SVM (Support Vector Machines) [148] reprezint o clas de algoritmi neuronali
cu nvare supervizat, fiind n acest moment o referin n domeniul machine learning.
Algoritmii SVM sunt eficieni pe seturi de date cu un numr mare de instane i de
trsturi. Acetia creeaz un hiperplan, care separ clasele astfel nct s maximizeze
95
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
distana dintre acestea. Un hiperplan este un plan care divizeaz spaiul n dou subspaii.
De exemplu, n spaiul bidimensional, separarea se poate face printr-o dreapt. De fapt,
hiperplanele sunt funcii de m variabile, unde m este numrul de variabile independente
dup care se face clasificarea. n cazul n care problema nu este liniar separabil, SVM
mapeaz trsturile ntr-un spaiu de dimensiune mai mare, n care problema poate deveni
liniar separabil.
n acest scop se utilizeaz aa numitele funcii-nucleu. Acestea pot fi de mai multe tipuri:
- Liniare: ;
- Polinomiale: ;
- Baz radial: ;
- Sigmoide: .
n mod ideal, o analiz SVM ar trebui s creeze un hiperplan care separ complet
caracteristicele a doi vectori n dou grupe separabile. Exist ns tipuri de date, care nu
sunt total separabile, rezultnd un model cu o putere de generalizare mai mic (problem
definit anterior ca overfitting). Pentru a adauga flexibilitate algoritmului, modelele
SVM au un parametru de cost C, care controleaz decizia de a lua margini mai rigide i
de a permite erori. Algoritmul va alege, astfel, hiperplanul care va maximiza decizia
corect i va minimiza eroarea.
Implementri ale SVM n contextul algoritmilor de felevance feedback sunt
propuse n [149] [150]. n [150], dup preluarea feedback-ului de la utilizator, sistemul
antreneaz un clasificator SVM care va creea un hiperplan ntre documentele relevante i
nerelevante. Apoi, utiliznd clasificatorul antrenat, baza de date va fii clasificat n dou
clase: relevante i nerelevante. Clasificatorul va acorda fiecrui document un scor de
relevan care va fi utilizat pentru reordonarea tututor documentelor. Alegerea nucleului
joac un rol foarte important n performana unui sistem de relevance feedback. Un
nucleu liniar este util n cazul unui spaiu liniar separabil cu un numr foarte mare de
dimensiuni. De asemenea, nucleul liniar reprezint o alegere bun n cazul n care viteza
96
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
sistemului este critic. n schimb, nucleele nonlineare sunt mai robuste i genereaz
hyperplane de separaie mult mai eficiente.
SVM reprezint o soluie eficient i robust pentru relevance feedback, deoarece
este rapid i relativ stabil n cazurile n care numrul de documente utilizate n antrenare
este redus.
4.3 Concluzii
n acest capitol am discutat diverse metode de relevance feedback. Astfel, am fcut o
trecere n revist a metodelor i tehnicilor folosite n sistemele actuale: relevance
feedback clasic, pseudo-relevance i relevance feedback indirect. Succesul alegerii
strategiei corecte depinde foarte mult de tipul problemei care trebuie rezolvat.
n continuare, am expus diferite metode de relevance feedback propuse n
literatur. Acestea se mpart n patru categorii principale: algoritmi de mutare a punctului
de interogare, de determinare a importanei trsturii, RF cu algoritmi statistici i de
clasificare. Primele categorii se evideniaz prin vitez ridicat de execuie, ns
performana acestora scade odat cu creterea dimensiunii i a complexitii bazelor de
date. Pe de alt parte, metodele care privesc procesul de relevance feedback ca o
problem de clasificare a dou clase prezint dificulti de nvare datorit numrului
redus de date de nvare. Mai mult, de cele mai multe ori numrul documentelor pe care
se acord feedback este mult mai mic dect spaiul descriptorilor, sau exist dezechilibre
n modul de acordare a feedbackului.
Algoritmii de RF reprezint o component des ntlnit n cadrul sistemelor de
indexare dup coninut. Acetia au rolul de a mbunti performanele de indexare ale
sistemelor multimedia, prin nvaarea online a preferinelor utilizatorului. Cu toate
acestea, metodele de RF prezint anumite limitri ce in de implementare, vitez de
execuie i dificultate de antrenare datorit numrului redus de date de nvare.
97
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
98
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Partea II
Contribuii personale
99
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
100
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 5
Descrierea coninutului de textur
folosind automate celulare
5.1 Teoria automatelor celulare
Un automat celular (cunoscut i ca reea celular) reprezint o funcie matematic care
modeleaz un fenomen discret. Aceste automate prezint o utilitate divers, fiind propuse
aplicaii n domenii ca: inteligen artificial, matematic, fizic, biologie, criptografie i
modelare grafic. Un automat celular presupune existena unei reele (matrici) de celule,
care conine un numr finit de stri i dimensiuni. Fiecare reea celular are definit un
set de reguli, iar acestea sunt aplicate reelei de la o iteraie la alta. n funcie de tipul
aplicaiei, regulile sunt procesate n mod iterativ, de cte ori este necesar pentru
finalizarea fenomenului.
Von Neumann a fost una dintre primele persoane care a folosit un astfel de model,
pe care ulterior l-a integrat n automatul su universal [151]. Apoi, n anii 50,
automatul celular a fost studiat n contextul sistemelor biologice. ncepnd cu anii 90,
Wolfram a dezvoltat teoria automatelor celulare [152], dup care a publicat o colecie
impresionant de automate celulare i diferite aplicaii ale acestora.
Automatele celulare prezint o varietate de forme. Una dintre proprietile
fundamentale ale unei reele celulare este reprezentat de forma matricei sau, mai precis,
de modul n care sunt concepute vecintile. Aceast proprietate const n numrul de
vecini ai unei celule (de obicei, numrul vecintilor ia n calcul i celula curent). Cea
mai simpl matrice este cea unidimensional, i anume reeaua are forma unei linii n
care fiecare celul are doi vecini. n cazul bidimensional, pot fi considerate mai multe
tipuri de vecinti: triangular (Brickwall), pentagonal (von Nemann), heptagonal i
eneagonal (Moore). Reprezentri grafice ale vecintilor 2D pot fi vizualizate n Figura
5.1. De asemenea, automatele celulare pot fi concepute n spaii multidimensionale, cele
mai des ntlnite fiind cele cu trei dimensiuni (reele reacie-difuzie [153]), intens
utilizate n modelarea reaciilor chimice.
101
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 5.1. Tipuri de vecinti ale unui automat celular: (a) vecintate Brickwall, (b)
pentagonal (von Nemann), (c) eneagonal (Moore) i heptagonal; celulele albastre
reprezint imaginea curent iar cele albastre indic vecintatea
102
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
exponenial. n [152] sunt prezentate cele 256 de posibiliti de funcii pe care un automat
celular le poate lua i aplicaiile acestora.
0 1 (5.1)
unde N i , j este vecintatea de dimensiune 3x3, centrat n jurul punctului curent (i,j),
este valoarea pixelului de la poziia k (k=1..9), iar A(k) reprezint ponderile care
sunt aplicate fiecrui element din vecintatea punctului curent. n Figura 5.2 este
prezentat att forma vecintii punctului curent (i,j) ct i notaiile folosite.
103
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Numrul de funcii posibile care pot fi utilizate are o valoare foarte mare.
De exemplu, pentru o vecintate von Newmann avem un numr de funcii
posibile. ns, testarea acestui numr ridicat de posibiliti este un proces
consumator de timp. Din acest motiv, am utilizat un numr redus de posibiliti: i anume
ase perechi de funcii. Aceste funcii sunt similare cu operatorii utilizai n detecia de
contur (Prewitt, Sobel, operatorul Laplacian i operatorul cruce Robertson). Figura 5.3
prezint funciile kernel utilizate n experimentul nostru.
Fig 5.3 ase funcii kernel propuse pentru descrierea coninutului de textur
104
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 5.4 Exemple de texturi utilizate n experimente: prima linie baza de date Brodatz,
baza de date VisTex n a doua linie, UIUC pe linia a treia i KTH pe ultimul rnd
Fig. 5.5 Performana MAP utiliznd un numr variabil de praguri (o singur scal de
imagine)
Fig. 5.6 Performana MAP utiliznd un numr variabil de scale (folosind un singur prag)
106
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 5.7 Performana obinut pentru diverse seturi de funcii utilizate ( 1 baza de date
UIUC, 2 albumul Brodatz, 3 - baza KTH i 4 - baza Vistex) - valori MAP
107
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Experiment de cutare
Tab. 5.1 Comparaie ntre cele mai bune rezultate (valori MAP)
Fig. 5.8 Graficele precizie reamintire pentru cele patru baze de date (KTH, Brodatz,
UIUC i VisTex) pentru diverse seturi de descriptori
108
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Algoritmul propus a obinut cele mai bune rezultate n dou din cele patru cazuri:
pentru bazele de date KTH i UIUC, n timp ce pentru bazele Brodatz i VisTex am
obinut poziia a doua. Rezultate foarte bune au fost obinute i cu descriptorii: HTD,
LBP, CCV i cu matricea de coocuren.
Cele mai slabe rezultate au fost obinute cu momentele de culoare, histograma de
margini i matricea de izosegmente. n cele mai multe cazuri, performana acestora este
de dou ori mai mic fa de a algoritmului propus. Rezultate mai bune au fost obinute n
cazul autocorelogramei, ns diferenele sunt majore i n aceste cazuri (MAP de la 10%
la 25%).
Experiment de clasificare
109
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 5.9 Rezultatele clasificrii pe bazele Brodatz, UIUC, KTH i Vistex utiliznd diferite
metode de clasificare (Naive Bayes, Nearest Neighbor, SVM liniar, SVM cu nucleu RBF,
Random Trees, Gradient Boosted Trees, Extremelly Random Forest) i diferii descriptori
(1. LBP, 2. CCV, 3. Momente de culoare, 4. Matricea de izosegmente, 5.
Autocorelograma, 6. Matricea de Coocuren, 7. EHD 8. HTD, 9. algoritmul propus) pe
baza de date Vistex
110
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Lungime
Descriptor Complexitatea computaional
descriptor
Histograma de nivele O(n) 24
de gri
CCV O(n) 48
Momente de imagine O(n) 9
Matricea de O(n) + O(km) unde k este numrul de culori
izosegmente obinut n urma cuantizrii iar m reprezint lungimea 23
maxim a izosegmentului
Autocorelograma O(n) + O(km) unde k este numrul de culori
obinut n urma cuantizrii iar m reprezint numrul 96
de vecinti
Matricea de O(n) + O( ) unde k este numrul de culori obinut 16
coocuren n urma cuantizrii
Histograma de O(n) 80
margini
Descriptorul de O( log(n)) 64
omogenitate a texturii
Algoritmul propus kO(n) unde k reprezent numrul de parametri 42
calculai
Descriptorul HTD prezint cea mai mare complexitate de calcul (O( n 2 log(n))), n
timp ce matricea de izosegmente, autocorelograma i matricea de coocuren au o
complexitate mai ridicat dect a algoritmului propus. Un alt criteriu de comparaie este
lungimea vectorului descriptor. Descriptorul standard, utilizat n comparaie are o
lungime de 42 de caracteristici (trei scale i apte praguri). Patru descriptori au o
dimensiune mai redus (histograma de niveluri de gri, momente de culoare, matricea de
izosegmente, i matricea de coocuren), n timp ce CCV, autocorelograma, HTD i EHD
au o lungime mai ridicat.
111
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
5.4 Concluzii
n acest capitol am prezentat o abordare neliniar pentru descrierea i clasificarea
imaginilor de textur. Performana descriptorului este validat att n contextul unui
sistem de clasificare ct i din perspectiva unui sistem de cutare a imaginilor dup
coninut. n acest scop, am utilizat patru baze de date de textur, pentru a compara
descriptorul nostru cu algoritmii existeni. Algoritmul propus, n ciuda simplitii sale,
reprezint o bun alternativ la descriptorii clasici de textur. n cele mai multe
experimente, algorimul propus ofer cele mai bune rezultate n probleme de cutare i
clasificare. De asemenea, algoritmul propus se impune prin simplitate i complexitate
redus de calcul.
Ca direcie viitoare de cercetare, mi propun s mbuntesc performana
algoritmului i s l adaptez altor tipuri de categorii de imagini, ca de exemplu imagini
medicale sau imagini naturale. De asemenea, mi propun s testez alte tipuri de funcii
nucleu i tehnici adaptive de binarizare a imaginilor.
112
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 6
Descrierea coninutului folosind
reprezentarea Fisher kernel
6.1 Teoria Fisher kernel
Reprezentarea Fisher kernel a fost iniial proiectat ca un model care combin beneficiile
algoritmilor generativi i ai celor discriminativi. Ideea general este de a reprezenta un
semnal ca fiind gradientul funciei de densitate de probabilitate. Acesta poate fi antrenat
prin utilizarea un model generativ, de cele mai multe ori acesta fiind modelul Gaussian
Mixture Model (GMM). Odat calculai vectorii Fisher, acetia se combin cu un
clasificator, cum ar fi de exemplu SVM.
Fie un set de T descriptori video multimodali. X va fi
reprezentat ca un vector gradient fa de modelul GMM cu parametri :
( ) (6.1)
Vectorul gradient este, prin definiie, concatenarea derivatelor pariale fa de
modelul GMM antrenat. Fie i , media i deviaia standard a clusterului gausian i,
probabilitatea de apartenen a descriptorului fa de centroidul I al GMM, iar D
dimensiunea descriptorului Definim ca fiind gradienii densitii de probabilitate a
setului de descriptori X de dimensiune D fa de mediile i gradienii fa de
deviaia standard a gausienei i. Matematic, aceste derivate sunt egale cu:
(6.2)
(6.3)
Vectorul gradient final Gx reprezint concatenarea vectorilor i pentru i =
[1...K]. Fisher kernel a fost introdus prima dat de ctre Jaakkola i Haussler n 1999
[166], denumirea fiind dat n cinstea lui Sir Ronald Fisher (un statistician, biolog
evoluionist, eugenist i genetician englez). n aceast lucrare, a fost propus un mecanism
de agregare a modelelor probabilitilor generative cu modelele de clasificare
discriminative, ca de exemplu modelul SVM. Apoi, n [167] Fisher kernel a fost introdus
n detecia i clasificarea de proteine. n urmtorii ani, modelul Fisher kernel a fost
113
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
114
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
115
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
O prim aplicaie propus este clasificarea filmelor dup gen. Pentru a testa algoritmul
vom utiliza baza de date MediaEval 2012 din cadrul competiiei de clasificare a filmelor
dup gen (Tagging Task) [45]. Baza de date conine 14.838 de filme grupate n 26 de
genuri, cum ar fi: automobile, art, comedie sau politic. Mai multe detalii despre baza de
date pot fi citite n Capitolul 2.7. Pentru descrierea coninutului video vom utiliza dou
canale de informaie: audio i vizual. Pentru descrierea coninutului vizual vom folosi
dou tipuri de descriptori: descriptori HOG globali care reprezint media trsturilor
Histograms of Gradients (HOG) [71] pe fiecare frame mprit n 3x3 blocuri
(dimensiune 81 numere per descriptor), i descriptori Color Naming (CN) [48] calculat
pe fiecare cadru n parte (dimensiune 11 numere per descriptor). Am ales Color Naming
117
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
deoarece acest model a fost antrenat pe seturi de imagini de pe web, la fel cum este cazul
i pentru baza MediaEval. Pentru descrierea coninutului audio vom folosi un set standard
de descriptori audio [175]: Linear Predictive Coefficients (LPC), Line Spectral Pairs
(LSP), descriptori MFCC, Zero-Crossing Rate (ZCR), spectral centroid, flux, rolloff i
kurtosis, toate ponderate cu variana pe fiecare trstur n parte pe o anumit fereastr
(n cazul nostru 1,28 secunde). Performana pentru toate experimentele de clasificare de
gen au fost msurate cu Mean Average Precision (MAP).
Pentru optimizarea parametrilor Fisher kernel vom ncepe cu urmtoarele setri iniiale:
100 de centroizi GMM, deoarece pare un compromis bun ntre vitez de calcul i calitate,
i normalizare de putere [99] i SVM cu kernel RBF. n toate experimentele iniiale
SVM RBF a obinut rezultate mai bune dect SVM liniar. De asemenea, nu am aplicat
nici o transformare sau comprimare vreunei trsturi (cum ar fi PCA). Toi parametrii vor
fi evaluai pe baza de date de antrenare, aceasta fiind mprit n dou pri egale.
n primul experiment vom evalua influena numrului de trsturi asupra
performanei sistemului. Pentru a efectua acest experiment, vom lua n calcul dou
strategii de extragere a cadrelor: (1) printr-o strategie dens i (2) prin utilizarea unui
rezumat de cadre utiliznd metoda propus n [176]. n Figura 6.2 sunt prezentate
rezultatele experimentale efectuate pe trsturile vizuale. Se poate observa c
performana sistemului crete odat cu marirea numrului de cadre folosite, ns creterea
de performan se plafoneaz la un moment dat. n toate experimentele viitoare vom
folosi o strategie de extragere dens a cadrelor.
119
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 6.4 Influena numrului de centroizi GMM asupra performanei sistemului (valori
MAP)
Tab. 6.1 Comparaie rezultate cu competiia MediaEval 2012 Tagging Task (valori
MAP)
Tip trstur Metod raportat la MediaEval MAP metod raportat MAP metod
2012 MediaEval 2012 propus
Audio Descriptori pe baz de blocuri 0,192 0,475
audio & SVM Liniar [119]
Vizual descriptori vizuali (Color,Texture, 0,350 0,460
rgbSIFT) [177]
Audio & Vizual - - 0,550
Text Bag of Words - Metadata & Text 0,526 -
ASR
Audio & Vizual - - 0,66
& Text
Aa cum am prezentat n seciunile anterioare, Fisher kernel este potrivit nu numai pentru
clasificare de gen, ct i pentru alte probleme multimedia. n aceast seciune vom evalua
metoda propus din perspectiva problemei de recunoaterii de aciuni sportive. n aceast
privin, vom aplica algoritmul pe o baz de date de aciuni sportive, i anume UCF Sport
50. Aceasta conine 6.680 documente video preluate de pe YouTube care conin variaii
majore de micare a camerei, pozitii, condiii de iluminare, scale i unghiuri de
vizualizare diferite. Baza de date conine 50 de categorii diferite cum ar fi: baseball,
aruncari, aruncri la co de basket, plimbat cu bicicleta, biliard, not, ridicare de greuti,
scufundri, btut la tob, scrima, golf, cntat la chitar, srituri cu prjina, curse de cai,
Hula Hoop, aruncarea suliei, srituri n lungime, Jumping Jack, caiac, exerciii de
nczire, parad militar, cntat la pian, fcut pizza, cal cu mnere, traciuni, box, urcri
perei artificiali, urcare pe frnghie, canotaj, salsa, skate boarding, sky, skijet, fotbal,
leagn, taichi, tennis, srituri la trambulin, cntat la vioar, volei, plimbri cu cinele i
Yo Yo etc.
Toate cele 50 de categorii sunt efectuate de cel puin 25 de grupuri de persoane,
fiecare grup avnd cel puin patru documente video. Filmele aparinnd fiecrui grup
conin cteva elemente similare, cum ar fi fundalul, unghiul de vizualizare sau contexte
asemntoare. Msurtorile finale vor fi efectuate folosind 25 de validri ncruciate i
anume: de fiecare dat un grup va fi exclus din grupul total de documente, antrenarea
fcndu-se pe restul de 24 de grupuri de documente iar testarea pe documentul exclus.
Performana msurat este raportat cu ajutorul parametrului de acuratee.
Optimizrile tuturor parametrilor au fost realizate pe jumtate din baza de date. n
121
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
schimb, rezultatele oficiale au fost calculate pe toat baza de date utiliznd metoda
clasic leave-one-group-out cross-validation.
Cele mai multe metode de descriere i clasificare a coninutului de aciune ncep
prin calculul punctelor de interes n spaiul temporal [105], fiecare informaie local fiind
descris cu autorul unor trsturi, ca de exemplu: HOG, HOF sau 3-D SIFT [108]. Aceste
metode au obinut rezultate bune pe baza de date UCF Sport 50, ns aceti algoritmi sunt
mari consumatori de resurse. n aceast seciune vom demonstra c putem obine
rezultate apropiate de state-of-the-art fr a utiliza descriptori care extrag puncte de
interes, folosind doar descriptori globali, cum ar fi HOG, HOF i histograme de culoare
CN.
Pentru descrierea coninutului de micare am utilizat urmtoarele trsturi: (1)
Histograme globale de gradieni orientai (36, 81 i 144 dimensiuni) care calculeaz HoG
pe primele 4 nivele de piramide spaiale, (2) histograme globale de Optical Flow (36, 81
i 144 dimensiuni) care masoar micarea pixelilor pe o regiune 9 orientri i (3)
histograma Color Naming (44, 99 i 176 dimensiuni). n toate experimentele, am
combinat aceste trsturi cu late fusion. Descriptorul HoF calculeaz unghiul de
micare a fiecrui pixel de la un frame la altul. Pentru a calcula unghiul de deplasare am
utilizat metoda clasic a lui Lucas-Kanade [104], iar pentru a clasifica pixelul ca staionar
/ nestaionar am utilizat o valoare prag. n Tabelul 6.2 prezentm performana iniial a
descriptorilor HOG, HOF i CN atunci cnd cadrul este mprit n 3x3 regiuni, iar
agregarea frame-urilor se face printr-o simpl medie.
Metod Acuratee
Trsturi HoG & SVM liniar 26,01%
Trsturi HoG & SVM RBF 40,06%
Trsturi CN & SVM liniar 13,22%
Trsturi CN & SVM RBF 22,49%
Trsturi HOF & SVM liniar 28,21%
Trsturi HOF & SVM RBF 47,41%
Trsturi HOF & HOG & CN & SVM RBF 53,11%
Cea mai bun performan este obinut de ctre descriptorii HOF, i anume
47,41%. Pe de alt parte, cea mai sczut performan este obinut cu histogramele de
culoare. Acest lucru se datoreaz faptului c informaia de culoare nu este att de
important ca informaia de aciune. Am utilizat informaia de culoare deoarece ne
ateptm ca pentru unele clase s capturm informaie contextual de background,
deoarece anumite sporturi prezint anumite nuane caracteristice, ca de exemplu: tenis i
fotbal conin verde, schi i hockey conine culoarea alb i asa mai departe. De asemeni,
sporturile sunt asociate cu locurile, ca de exemplu: scufundrile se petrece n mediul
subacvatic, golful de desfoar ntr-un mediu natural, .a.m.d. De asemeni, i utilizarea
122
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Pentru optimizarea parametrilor Fisher kernel am utilizat doar jumtate din categorii,
pentru fiecare categorie selectnd doar o treime din grupuri. De asemeni, am utilizat
mecanismul de cros-validare pe cele 8 grupuri.
n acest experiment vom prezenta influena numrului de centroizi GMM asupra
performanei sistemului. Figura 6.5 prezint variaia performanei atunci cnd variem
numrul de centroizi GMM ct i diferena de performan intre performana primilor
descriptori plus a acestora atunci cnd aplicm Fisher kernel. n primul rnd trebuie s
notm c performana acestora crete chiar i atunci cnd utilizm un singur centroid.
Spre exemplu, pentru descriptorii de culoare, performana crete de la 35% la 40%,
pentru descriptorii HOG de la 47% la 55%, n timp ce pentru HOF creterea de
performan este de la 54% la 56%.
Fig. 6.5 Influena numrului de centroizi GMM asupra performanei sistemului (valori
MAP)
123
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
n Tabelul 6.3 este prezentat performana obinut de metoda propus, alturi de a altor
metode din literatur. Se poate observa c metoda noastr obine a doua poziie cu o
performan de 74,01%, dup cea propus de Reddy [108]. Totui, metoda propus
utilizeaz descriptori foarte simpli, cum ar fi HOG, HOF si CN n timp ce metoda din
prima poziie utilizeaz un set de descriptori care genereaz un efort computaional foarte
ridicat. Doar metoda propus de Solmaz [178] utilizeaz descriptori globali (GIST 3D),
ns acetia au o performan mai mic cu 9%.
n final, putem concluziona c metoda propus obine rezultate similare cu cele
prezentate n state-of-the-art, ns aceasta utilizeaz descriptori mult mai rapizi i uor de
implementat.
Tab. 6.3 Comparaie rezultate State-of-the-Art (acuratee)
Metod Acuratee
Reddy et al. [108] 76,9%
Metoda propus 74,01%
Solmaz et al. [178] 73,7%
Everts et al. [109] 72,9%
Kliper-Gross et al. [179] 72,6%
Solmaz et al. [178]: GIST3D 65,3%
O ultim aplicaie propus este cea de recunoatere de aciuni obinuite. n acest context
vom utiliza baza de date ADL (University of Rochester Activities of Daily Living) [180]
care conine 10 tipuri de activiti: a rspunde la telefon, a suna pe cineva la telefon, a
scrie un numr la telefon, a cuta un numr de telefon, a a bea un pahar cu ap, a mnca
cips-uri, a desface o banan, a mnca o banan i a mnca mncare cu furculia. n total,
baza de date conine 150 de documente video, nregistrate cu 30 de frame-uri pe secund
la rezoluia de 1280 x 720. Baza de date conine un set important de provocri: diferite
forme, diferite persoane de naionaliti i etnii diferite, ct i o serie de aciuni care sunt
foarte similare ca: a mnca o banan sau cipsuri, sau a rspunde sau a vorbi la telefon.
124
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Multe din activitile prezentate anterior ca mncatul unei banane sau vorbitul la
telefon pot fi definite ca i noiuni de micare n funcie de anumite pri componente ale
corpului unei persoane. Din acest motiv, am extras prile componente ale persoanelor
care efectueaz aciunile respective, utiliznd metoda propus n [110]. Estimarea prilor
componente ale corpului uman prezint performane ridicate atunci cnd filmele conin
un numr mic de ocluziuni iar persoanele sunt vizualizate integral. Un exemplu de
estimare a prilor componente l gsim n Figura 6.6 (a). Apoi, vom selecta o suprafa
adiacent fiecrei componente a corpului uman (Figura 6.6 (b)), iar pentru fiecare regiune
vom extrage o histogram de trsturi HoF.
(a) (b)
Fig. 6.6 (a) Exemplu de estimare prilor componente a corpului uman (b)
suprafa de extragere a trsturilor HoF
Metod Acuratee
HoF extras pe pri componente ale corpului & SVM liniar 88,10%
HoF extras pe pri componente ale corpului & RBF 66,41%
125
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Pentru optimizarea reprezentrii Fisher vom folosi jumatate din baza de date mprit n
dou pri componente: 37 de filme pentru antrenare i 37 de filme pentru testare, fiecare
avnd o distribuie uniform pentru fiecare activitate.
Singurul parametru care va fi optimizat va fi numrul de centroizi GMM. Figura
6.7 prezint variaia performanei atunci cnd variem numrul de centroizi GMM ct i
diferena de performan intre performana primilor descriptori plus a acestora atunci
cnd aplicm Fisher kernel. n primul rnd trebuie s notm c performana acestora
crete chiar i atunci cnd utilizm un singur centroid (de la 86% la 92%).
n Tabelul 6.5 poate fi vizualizat rezultatul final obinut de metoda propus, mpreun cu
alte metode propuse n literatur. Se poate observa c algoritmul Fisher kernel aplicat
prilor componente ale corpului prezint cea mai mare performan, de 97,3% , n timp
ce ceilali algoritmi au obinut o performan cu cteva procente mai redus. n metoda
propus de Wang [181], se utilizeaz un algoritm care printr-o augmentare spaial ia n
considerare relaia spaial dintre punctele de micare de interes. Pe de alt parte, n
metoda propus de Lin [182] distribuia spaial este incorporat prin crearea unei
structuri arborescente.
126
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Metod Acuratee
Metod propus 97,3%
Wang et al. [181] 96,0%
Lin et al. [182] 95,0%
Messing et al. [183] 89,0%
127
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
128
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 7
129
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(7.1)
130
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Schema logic a algoritmului este prezentat n Figura 7.2. Primul pas const n
calculul ponderilor trsturilor relevante i nerelevante (valorile ). Apoi, se calculeaz
centroidul documentelor relevante i se va muta noul punct de interogare. n final, se
genereaz o nou interogare i se va afia un nou set de rezultate. Utilizatorul poate
selecta noile imagini relevante iar ciclul se poate repeta pn cnd rezultatele returnate
sunt satisfctoare.
Pentru testarea metodei am utilizat dou baze de date de imagini. Prima baz de date
conine 2700 de imagini naturale, preluate de pe internet utiliznd cutri specifice pe
motorul de cutare Google. Baza de date conine o gam larg de categorii, ca de
exemplu: anotimpuri, cldiri, ocean, deert, copii, concerte, portrete, picturi, orae
faimoare (Londra, Paris etc), persoane, sport, animale, mncare, coninnd un total de
100 de clase cu 27 de imagini per clas. A doua baz de date este baza de date Vistex de
texturi.
Pentru descrierea coninutului vizual am utilizat descriptorul de culoare MPEG 7
Color Histogram Descriptor (CHD) [47]. Alegerea este justificat de nevoia de a
compara performana i viteza algoritmilor de relevance feedback i nu a performanei
trsturilor. Descriptorul CHD este implementat n spaiul de culoare HSV, avnd
urmtoarea structur: 16 elemente de nuan, 4 de saturaie i 4 de luminan.
Comparaie cu State-of-the-Art
Algorimii de relevance feedback cu care vom compara performana sunt: Rocchio [139],
Estimare a importanei feedback-ului (RFE) [129] i algoritmul Robertson Spark-Jones
[149].
Pentru compararea rezultatelor am utilizat graficele precizie-reamintire i precizia
medie. Rezultatele sunt prezentate n Figura 7.3. Se poate observa c metoda propus
obine cea mai ridicat performan att pentru baza de date de imagini de textur, ct i
pentru baza de date de imagini naturale, n ambele cazuri mbuntirea de performan
fiind de peste 3 - 7 procente.
(a) (b)
Fig. 7.3 Graficele Precizie-Reamintire pentru o sesiune de feedback: (a) baza de date de
texturi i (b) baza de date de imagini naturale
132
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
n Figura 7.4 sunt prezentate performanele algoritmilor pentru mai multe sesiuni
de feedback. Se poate observa c performana sistemului crete n mod semnificativ n
toate cazurile atunci cnd aplicm algoritmii de relevance feedback. Spre exemplu, prin
aplicarea algoritmului propus n cazul bazei de date de textur, performana crete de la
71% la 87%, n timp ce pentru baza de imagini naturale rata de recunoatere aproape se
dubleaz de la 37% la 60% MAP. Mai mult, algoritmul propus obine rezultate superioare
fa de ceilali algoritmi. Spre exemplu, n cazul imaginilor de textur metoda propus are
o performan mai ridicat cu peste 2 procente mai ridicat dect RFE i cu 8 procente n
cazul bazei de imagini naturale.
(a) (b)
Fig. 7.4 Variaia MAP pentru mai multe iteraii de feedback: (a) baza de date de texturi
i (b) baza de date de imagini naturale
133
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
D (a) (b)
134
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
135
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
- legtur medie (average linkage) - n acest caz distana este calculat ca o medie a
tuturor distanelor dintre obiecte
- legtura ward - reprezint suma ptratelor distanelor din interiorul unui cluster i
centroidul acestora:
(7.2)
unde clusterul A conine m obiecte iar B conine n obiecte.
- legtura ntre centroizi (centroid linkage) reprezint distana dintre centroizi.
Aceast distan poate fi utilizat doar dac se folosete distana euclidian:
unde
Tipul metricii este foarte important deoarece influeneaz forma clusterelor. Spre
exemplu, n cazul n care alegem ca i criteriu de similaritate distana cea mai apropiat
dintre dou elemente (single linkage), forma clusterelor poate deveni neuniform
(asemenea unei banane sau gogoi). Pe de alt parte, alegerea unei legturi medii va
genera clusteri uniformi.
Clusterizarea se realizeaz pn cnd se execut o condiie de finalizare. Exist
dou variante de finalizare: cnd un numr fix de clustere este atins, sau un numr
variabil adaptiv de clustere n funcie de un algoritm. O prim variant de calcul a
metodei adaptive a fost propus n [185] i utilizeaz formula urmtoare:
136
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
(7.3)
unde reprezint distana minim dintre doi clusteri iar reprezint
distana maxim dintre doi clusteri. n cazul n care d are o valoare apropiat de zero
nseamn c vom avea un set de clusteri compact (distanele dintre clustere vor avea
valori foarte apropiate), iar n cazul valoarea lui d va tinde la unu vom avea perechi de
clustere neregulate.
O alt variant de algoritm propus este criteriul arcului [186]. Numrul minim
de clustere este determinat n punctul n care daca vom creea un nou cluster acesta nu va
aduga un plus de informaie (diferena varianei inter-cluster va fi minim). Mai precis,
punctul de inflexiune este cel n care valoarea gradientului distanei inter-cluster este
maxim.
Descriere experiment
137
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
baza de date Microsoft (Microsoft Object Class Recognition) baza de date Microsoft
(Microsoft Object Class Recognition) [191] care cuprinde un numr de 4300
imagini grupate n 21 de categorii;
baza de date Caltech 101 [192] cu un numr de 9146 de imagini mprite n 101 de
categorii distincte (persoane, animale, instrumente, evenimente etc). Exemple de
imagini din baza de date se gsesc n Figura 6.13.
Pentru descrierea coninutului vizual au fost utilizate trei categorii de descriptori:
Fig 7.9 Exemple de imagini din bazele de date utilizate (primele dou rnduri reprezint
imagini din baza de date Microsoft iar urmtoarele dou rnduri din baza de date
Caltech 101 2 imagini per categorie)
138
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig 7.10 Variaia MAP n funcie de numrul de clustere utiliznd cele patru metode de
unificare a clusterelor (distana medie, minim, maxim si distana dintre centroizi)
139
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Comparaie cu State-of-the-Art
140
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 7.12 Curbele Precizie Reamintire pentru bazele de date Caltech 101 i Microsoft
utiliznd descriptorii de culoare, MPEG7 i Bag of Words (SURF)
Fig 7.13 Performana sistemului atunci cnd variem numrul de iteraii de feedback pe
baza de date Caltech 101 si Microsoft (valori MAP)
141
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
142
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
prezint performane medii mult diferite, se observ c utilizarea unei metrici adecvate
poate juca un rol critic n rezultatele finale ale sistemului. n cazul bazei de date
Microsoft, cele mai bune rezultate sunt obinute utiliznd combinaia: set descriptori
MPEG 7 i distana Bhattacharyya, cu un MAP de 57%. Urmtoarele rezultate sunt egale
cu 55% i 54%, utiliznd distanele Canberra, respectiv Clark, pe setul de descriptori de
culoare. Aceste valori reprezint o mbunatire de 18 procente faa de valoarea
performanei medii a descriptorului MPEG 7.
Rezultatele vor fi sensibil mai mici n cazul bazei de date Caltech 101. Principalul
motiv pentru care baza Caltech 101 conine rezultate mai slabe se datoreaz numrului de
cinci ori mai ridicat de clase care trebuie clasificat. Acurateea cea mai mare este obinut
utiliznd descriptorii Bhattacharyya i Canberra (valori MAP de 23,4% respectiv 23,2%).
n acest caz vom avea mbuntiri de cel puin 5% fa de valoarea medie a performanei
descriptorului. n ceea ce privete efortul computaional, trebuie luat n considerare c
distana Bhattacharyya este soluia cea mai costisitoare. De asemenea, se observ c
anumite metrici sunt adaptate pe structura anumitor descriptori. Spre exemplu, distanele
Bhattacharyya i Canberra au perfomane slabe pe setul de descriptori Bag-of-Visual-
Words (de observat SURF, SIFT, Harris i GOOD n Figura 7.15). Un alt caz interesant
este cel al distanei euclidiene, care n ciuda popularitii sale obine rezultate sczute n
marea majoritate a experimentelor.
n experimentele anterioare se observ c performanele pe testere de cutare este
relativ sczut. Din acest motiv, ncercm s aplicm algoritmi de relevance feedback
asupra experimentelor de cutare. Vom compara metoda propus HCRF asupra altor
algoritmi clasici de Relevance Feedback: algoritmul Rocchio [139], Relevance Feature
Estimation (RFE) [143], RF utiliznd Vectori Suport (SVM) [150], Arbori de decizie
(Tree) [194], AdaBoost (BOOST) [193], Random Trees [193], Gradient Boosted Trees
(GBT) [193] i algoritmul celor mai apropiai vecini (Nearest Neighbor - NN) [196].
Pentru fiecare descriptor i metric vom efectua un experiment cu fiecare algoritm de
relevance feedback. Din motive evidente, nu vom prezenta dect rezultatele cele mai
importante n Tabelul 7.1:
Tab. 7.1 Top trei performane pentru bazele de date Microsoft i Caltech 101 (MAP).
144
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Aceste rezultate experimentale au fost publicate n cadrul conferintei ICCP Cluj 2011
[188]. n cadrul acestei conferine am propus metoda de relevance feedback cu clasificare
ierarhic cu aplicare pe bazele de date multimedia. Coninutul vizual a fost descris
implementnd trei tipuri de descriptori: de culoare, aciune i contur. Pentru testare am
ales trei combinaii de descriptori: culoare mpreun cu aciune, contur individual i un
descriptor ce conine combinarea celor trei descriptori concatenai. Pentru comparaie cu
metoda aleas am folosit patru algoritmi clasici de relevance feedback: Rocchio [139],
Robertson Starck-Jones, algoritmul de estimaie a importanei descriptorului [143],
relevance feedback utiliznd vectori suport (SVM) [150] i Relevance Feedback cu
clustering ierarhic [188].
145
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 7.16 Precizia calculat pe fiecare categorie de film pentru diferii descriptori (de
sus in josi de la stnga la dreapta): Color & Aciune, Contur, Contur & Culoare &
Actune; dup o singur sesiune de preluare feedback. n toate graficele sunt prezentate
performantele descriptorului iniial (bluemarin), Rochio (albastru), Robertson Spark
Jones RF (cyan), FRE RF (galben), SVM (rou) i HCRF (magenta).Categoriile
prezentate sunt: 1 Animaii, 2 Reclame, 3 Documentare, 4 Filme, 5 Videoclipuri,
6 tiri, 7 Sport.
146
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 7.17 Graficele precizie reamintire pentru diveri descriptori (de sus n jos i de la
stnga la dreapta): Culoare & Aciune , Contur i Culoare & Actune & Contur artnd
performana sistemului dup o iteraie de feedback. n fiecare grafic este desenat
performana descriptului classic ( linie punctat), Robertson Spark Jones RF (punct i
linie ), FRE RF (linii intrerupte), Rocchio RF (linie continu cu cercuri) , SVM RF (linie
continui HC RF (linia continu de deasupra).
Tab. 7.2 Performana medie obinut pe baza de date de test (valori MAP)
147
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
lungimea spaiului descriptorului este mult mai mare dect numrul de documente folosit
pentru antrenare.
Aceste rezultate experimentale au fost publicate n cadrul revistei cotate ISI Multimedia
Tools and Applications [120]. n cadrul acestei lucrri am propus un nou algoritm de
relevance feedback care utilizeaz algoritmul de clusterizare ierarhic.
Pentru descrierea coninutului multimedia am utilizat trei tipuri de descriptori:
- descriptori de culoare: histograma global ponderat [120], histograma elementar
de culoare (distribuia nuanelor elementare de culoare din document), histograma
proprietilor de culoare (proporia de culori puternic saturate, slab saturate, culori
reci i culori calde) i histograma relaiilor de culoare (procentul de culori perceptual
apropiate i procentul de culori perceptual diferite)
- descriptori audio: Descriptorii audio folosii sunt descriptori pe baz de blocuri
audio, i au o lungime egal cu 11.242 valori per descriptor. Acetia au rolul de a
captura nformaia i proprietile temporale ale semnalului audio. Semnalul audio
este mprit n blocuri de dimensiune fix, iar apoi pentru fiecare bloc se calculeaz
paternul spectral (Spectral Pattern care captureaz puterea semnalului audio),
paternul de fluctuaie logaritmic (Logarithmic Fluctuation Pattern care prelucreaz
informaia de ritm), Spectral Contrast Pattern i Correlation Pattern care reprezint
relaia temporal a intesitii de schimbare a semnalului i trsturi de timbru: Local
Single Gaussian Model i Mel-Frequency Cepstral Coefficients. Secvenele sunt
agregate utiliznd media, variana i medianul pentru toate blocurile audio calculate.
- descriptori temporali: Acetia analizeaz gradul de dinamizare a cadrelor video. n
acest scop sunt extrase cuts i tranziiile graduale. Cut-urile sunt detectate prin
utilizarea unei metode pe baz de schimbare de histogram, n timp de fades i
dissolves sunt detectate prin algoritmi statistici. Parametrii calculai n descriptorii
temporali sunt: ritmul, aciunea i rata gradual de tranziie.
Figura 7.18 prezint graficele precizie-reamintire pentru ferestre de 20, 30, 40 i
50 de documente video. Algoritmul de relevance feedback cu clusterizare ierarhic
prezint cele mai bune rezultate fa de algoritmii clasici de RF: Rocchio [139], Feature
Relevance Estimation (RFE) [143], Support Vector Machines [120]. Se poate observa c
cele mai bune performane se realizeaz pe ferestre de vizualizare mai mici (20-30 de
documente).
Tabelul 7.3 prezint performanele MAP ale algoritmilor pe cele 4 ferestre de
vizualizare. Pentru metoda propus gama de variaie cuprinde intervalul 41.8% pn la
51.3%, care reprezint o cretere de performan cu cateva procente fa de algoritmii
clasici de relevance feedback. Relevance feedback se dovedete a fi o alegere bun pentru
148
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 7.18 Grafice Precizie Reaminitire pentru o sesiune de relevance feedback pe patru
ferestre de afisare (20, 30, 40 si 50 de documente afiate)
Tab. 7.3 Performana sistemului pentru diferite ferestre de afisare (valori MAP).
Algoritmul de Relevance 20 30 40 50
Feedback documente documente documente documente
Rocchio 46,8% 43,84% 42,05% 40,73%
FRE 48,45% 45,27% 43,67% 42,12%
SVM 47.73% 44,44% 42,17% 40,26%
HCRF 51.27% 46,79% 43,96% 41,84%
Acest algoritm de relevance feedback [189] este inspirat din teoria Fisher kernel,
prezentat n Capitolul 6. Metoda propus de relevance feedback conine urmtorii pai:
alterarea trsturilor prin utilizarea feedback-ul i etapa de reordonare a noilor trsturi.
149
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
150
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Reordonarea trsturilor
Primii n vectori Fisher calculai sunt antrenai cu un descriptor SVM. SVM este o soluie
bun pentru RF deoarece este robust la situaii n care sunt utlizate un numr redus de
documente pentru antrenare. ntradevr, SVM a mai fost utilizat n RF [149] [150], ns
nu n combinare cu reprezentarea Fisher kernels. n acest experiment am utilizat dou
tipuri de SVM: liniar i SVM cu nucleu nonlinear RBF. n timp SVM liniar se remarc
prin viteza ridicat n antrenare i clasificare, SVM RBF obine performane mai ridicate
n multe probleme de clasificare.
Cele mai multe sisteme de cutare multimedia dup coninut sunt compuse din dou
etape principale: extragerea de trsturi i ordonarea documentelor n funcie de trsturi.
Prima component presupune calculul unei trsturi per document, iar aceasta trebuie s
151
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
cuprind ct mai mult informaie relevant pentru categoria din care face parte. De
exemplu, pentru documentele video, cele mai multe metode calculeaz trsturile pentru
fiecare descriptor n parte, iar apoi agreg aceste rezultate prin utilizarea mediei i
dispersiei acestora, sau a altor parametri statistici. Dar, prin agregarea acestor statistici,
noiunea temporal este pierdut. Pe de alt parte, un video poate fi reprezentat prin mai
multe trsturi per vector, iar apoi se poate calcula o distan dintre cele dou seturi de
descriptori utiliznd, spre exemplu, distana Earth Mover [30]. Totui, aceste metrici
implic un cost computaional foarte ridicat, mai ales pentru baze de date cu dimensiuni
mari.
Prin utilizarea reprezentrii Fisher kernel, se obine o soluie natural la problema
descris anterior. Fisher kernel a fost iniial conceput pentru a mapa vectori de
dimensiuni fixe ntr-o reprezentare de lungime constant. Pentru spargerea documentului
n mai multe cadre, o metod este aceea de a calcula un descriptor pentru fiecare imagine
n parte. Totui, pentru baze mari de date, numrul de cadre este uria (25 frame-uri pe
secund nmulit cu mii de ore de coninut video), iar aceast metod poate creea
probleme de calcul. O alt metod este de a prelua un numr fix de cadre per secund,
ns chiar i asa o mare parte din informaie nu este relevant. n acest caz, un algoritm de
sumarizare video este necesar. n acest caz vom extrage un numr redus de imagini
reprezentative, care vor reprezenta ntr-un mod ct mai precis coninutul video. Pentru
antrenarea modelului GMM vom folosi trsturile pentru primele n documente video.
Odat ce modelul generativ este antrenat, pentru fiecare secven de vectori
, compus din trsturi per document, vom transforma aceti descriptori
ntr-un vector de dimensiune fix. Singura diferena dintre cele dou modele este
reprezentat de numrul de frame-uri cu care modelul generativ este antrenat. n loc s
utilizm o singur trstur agregat pentru calculul Fisher, vom calcula o nou
reprezentare Fisher utiliznd un numr variabil de trsturi per document. Vectorul
rezultat pentru fiecare video n parte va avea aceiai dimensiune constant.
Descriptori utilizai
152
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
153
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
comparm metoda Fisher kernel cu o nou reprezentare Fisher kernel n care nvtm
modelul GMM utiliznd toi descriptorii pentru toate documentele din baza de date.
Ultima seciune experimental prezint avantajele folosirii Fisher kernel atunci cnd
avem mai muli descriptori calculai pentru fiecare document video.
Anumite msuri de calcul a distanei dintre doi descriptori sunt mai bine adaptate dect
altele la structura trsturii. n acest capitol am testat performana pe care o nregistreaz
diferite metrici pentru diferii descriptori multimedia. Am plecat de la premiza c o
performan iniial va genera o performan ulterioar mai bun pentru algoritmii de
relevance feedback. Vom testa o gam larg de metrici: euclidian (L2), Manhattan (L1)
(cazuri particulare de distane Minkovski), divergene probabilistice: Canberra [23],
distana cosinus, Chi-Square (utilizat cu succes n algoritmi de machine learning) i
distana Mahalanobis [23]. Performanele sunt prezentate n Tabelul 7.4.
n urma acestui experiment am concluzionat c fiecare trstur are metoda sa
preferat. n urmtoarele experimente vom folosi pentru fiecare trstur metrica cu care
va obine cea mai bun acuratee (valori ngroate n tabel).
Tab. 7.4 Performana sistemului fr relevance feedback, utiliznd diferite metrici
(valori MAP).
154
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Normalizare Descriptori
Vizuali Audio Text
Fr normalizare 37.25% 38.68% 31.13%
L1 36.82% 37.97% 29.83%
L2 39.22% 41.94% 30.51%
Normalzare logaritmic 38.61% 42.01% 35.07%
Normalizare ptratic 38.51% 41.37% 34.93%
Normalizare ptratic + L1 39.20% 42.98% 30.12%
Normalizare ptratic + L2 39.46% 43.23% 31.71%
155
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
n aceast seciune vom compara algoritmul propus cu ali algoritmi propui n literatur
ca de exemplu: Rocchio [139], algoritmul de extimare a relevanei (RFE) [143], Support
Vector Machines (SVM) [150], AdaBoost (BOOST) [193], Random Forests (RF) [193] i
Nearest Neighbor [196]. Figura 7.21 prezint curbele precizie reamintire pentru diferite
categorii de descriptori. Ca i observaie general, toate motodele de relevance feedback
mbuntesc performana de retrieval n comparaie cu performana sistemului n care nu
se utilizeaz feedback. Performane mai bune sunt obinute cu descriptorii de audio, n
timp de textul i descriptorii vizuali au o performan similar. Cea mai bun performan
se obine cu descriptorii standard audio, o cretere a preciziei de la 29,35% (fr RF) la
46.34% i cu toi descriptorii combinai de la 30,29% la 45,80%. Tabelul 7.6 prezint
valorile MAP pentru diferite combinri de trsturi.
Tab. 7.6 Comparaie acuratee cu ali algoritmi de relevance feedback (valori MAP).
Algoritmul FKRF obine cele mai bune rezultate pentru marea majoritate a
cazurilor, cu excepia combinaiei de descriptori vizuali, acolo unde algoritmul cu arbori
aleatorii are cea mai bun performan. Cea mai mare diferen de performan se obine
folosind descriptorii MPEG 7 mai bine de 4 procente (de la 40,80% cu FKRF RBF la
36,85% cu random forests) i pentru descriptori pe baz de blocuri audio (de la 43,96%
cu FK RF liniar la 39,87% cu RF Boost). Pe de alt parte, cea mai sczut diferen n
performan este obinut pentru toi descriptorii concatenai (de la 45,80% folosind
FKRF RBF la 45,31% utiliznd random forests).
n cele mai multe din cazuri RFE i RF obin rezultate foarte bune, ns nu att de
bune dect algoritmul propus. Metoda noastr obine rezultate superioare fa de toi
ceilali algoritmi clasici de relevance feedback, ca de exemplu: Rocchio, RFE, SVM,
Random Trees etc.
157
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Tab. 7.8 Comparaie acuratee dintre FKRF clasic i FKRF temporal (valori MAP).
158
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
7.4 Concluzii
n acest capitol am discutat diverse metode propuse de relevance feedback.
Iniial, am prezentat un algoritm de relevance feedback inspirat din algoritmii de
relevance feedback de schimbare a punctului de interogare i de estimare a importanei
trsturilor. Testarea a fost efectuat pe dou baze de date clasice (o baz de date de
textur i una de imagini naturale), utiliznd o gam variat de metrici i descriptori.
Algoritmul propus obine rezultate superioare fa de algoritmi de relevance feedback
clasici, performana sistemului fiind mbuntit cu peste 8% (valoare MAP).
n urmtoarea seciune au fost expuse dou subiecte principale: influena
metricilor asupra performanei unui sistem de cutare de imagini dup coninut i am
propus un nou algoritm de relevance feedback inspirat de clasificarea ierarhic. Testarea
a fost efectuat pe dou baze de date clasice (Caltech 101 i Microsoft), utiliznd o gam
variat de metrici i descriptori. Algoritmul propus obine rezultate superioare fa de
algoritmi de relevance feedback clasici, performana sistemului fiind mbuntit cu
peste 23% (valoare MAP). De asemenea, am demonstrat c alegerea unei metrici
potrivite poate fi decisiv pentru acurateea sistemului. Distane ca Canberra i
Bhattacharyya s-au dovedit a obine rezultate bune pentru descriptori clasici (ca de
exemplu MPEG 7 sau descriptori de culoare), n timp ce metrici ca Tanimoto obin
rezultate superioare pe descriptori de tip Bag of Words. n urmtoarea seciune am aplicat
acest algoritm i n contextul problemei de indexare a documentelor video. Algoritmul
propus a obinut rezultate mbuntite fa de majoritatea algoritmilor RF state-of-the-
art.
n finalul capitolului, am propus o nou metod de relevance feedback utiliznd
reprezentarea Fisher kernel. Experimentul a fost efectuat n contextul aplicrii tehnicilor
de relevance feedback pe bazele de date multimedia, iar noi am propus o metod care
combin modelele generative cu cele descriminative, pentru problema de relevance
feedback. Testat pe o baz de date mare (MediaEval 2012), i utiliznd o serie de
descriptori care reprezint state-of-the-art (vizuali, audio i text), metoda noastr FKRF
mbuntete performana rezultatelor, surclasnd alte metode existente ca: Rocchio,
Nearest Neighbors RF, Boost RF, SVM RF, Random Forest RF i RFE.
De asemenea, am prezentat o metod de a captura nformaia temporal utiliznd
Fisher Kernel, astfel nct s folosim mai mult de un vector descriptor pentru un
document video. Experimentele efectuate pe trsturi vizuale au artat c performana
este drastic mbuntit de la 40,80% la 45,83% pentru MPEG 7 i de la 29,59% la
32,87% pentru trsturile HOG. De asemeni, am artat ca nu este necesar un numr
ridicat de centroizi GMM pentru a antrena metoda, aceasta obinnd rezultate bune cu
numai 5-10 centroizi. Acest lucru face ca metoda s poat fi implementabil n timp real.
Principala direcie de dezvoltare n viitor o va reprezenta aplicarea metodei pe
baze de date mai mari, pentru a crete diversitatea conceptelor antrenate. Mai mult, dorim
159
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
extinderea metodei Fisher kernel temporale ctre alte modaliti, ca de exemplu text i
audio, sau a trsturilor mai elaborate ca cele spaio-temporale.
160
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 8
161
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
clasificare a gesturilor (al doilea autor), aceasta fiind publicat n cadrul conferinei
Symposium on Signals, Circuits and Systems (ISSCS) 2013, Iai, Romnia [207].
162
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 8.2 Exemple de imagini otoscopice utilizate n experimente: prima linie conine
exemple de imagini fr otit, iar linia a doua prezint inflamaii ale urechii medii
163
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Selecia descriptorilor
Fig. 8.3 Acurateea de clasificare pentru urmtorul set de descriptori: 1) Color Layout
Descriptor, 2) Momente de culoare, 3) Descriptorul de textur Fourier, 4) Histograma
de culoare, 5) Matricea de izosegmente, 6) Matricea de coocuren, 7) Color Structure
Descriptor, 8) Autocorelograma, 9) Color Coherence Vectors i 10) Localy Binary
Patterns, utiliznd clasificatorii: SVM Liniar, SVM RBF, Naive Bayes, Nearest
Neighbour, Neural Networks, Random Trees, Gradient Boosted Trees, Extremelly
Random Forest i AdaBoost.
164
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Totui, un rezultat de 76,34% este mult sub ateptri, aa ca vom ncerca s mbuntim
performana sistemului prin utilizarea de tehnici de fuzionare. Metodele de fuzionare se
bazeaz pe principiul c o decizie agregat din partea mai multor sisteme expert poate
avea o performan superioar fa de cea oferit de un singur sistem. Vom testa patru
tehnici de late fusion i anume fuziunea prin vot egal (CombSum), fuziunea prin vot
ponderat CombMean, CombMNZ i fuziune prin rang (CombRank). Pentru procesul de
vot am selectat primele apte perechi descriptor clasificator din punct de vedere a
performanei obinute.
Rezultatele experimentelor sunt prezentate n Figura 8.4. n primul rnd se poate
observa c performanele obinute cu o strategie late fusion sunt superioare fiecrui
descriptor individual.
165
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Metode Acuratee
Metoda propus (Late Fusion CombMNZ) 84,2%
Metoda propus (LBP i ERF) - fr late fusion 76,34%
Vertan i alii [208] 68.25%
8.1.3 Concluzii
166
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 8.5 Exemple de imagini medicale utilizate n experiment:(1) prima linie conine
exemple de imagini celulare din clase diferite i (2) a doua linie prezint un exemplu de
imagini aparinnd aceleiai clase
167
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
168
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
7.2.4 Concluzii
169
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
170
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
clasificai cu ajutorul unui model probabilistic. n [211] este prezentat un prim model
multimodal, care utilizeaz att text ct i informaia vizual. O detecie a genului este
iniial efectuat prin clasificarea unor descriptori textuali (metadate, titlu, nume utilizator,
comentarii), ca apoi informaia vizual s fie utilizat pentru detecia unor subgenuri.
ns, un sistem multimodal trebuie s ncapsuleze i informaia audio. n [215] este
combinat informaia vizual (descriptori MPEG 7 i descriptori de micare HOF) cu
descriptori audio. Apoi, filmele sunt clasificate cu ajutorul unui model Gaussian Mixture
Model (GMM).
ns cele mai multe metode prezentate anterior sunt limitate la un numr redus de
genuri. Recent, competiia Genre Tagging Task din cadrul MediaEval 2012 [197] a
instituit o nou perspectiv pentru sistemele de clasificare de gen, propunnd att o baz
de date public de dimensiuni mari (15.000 de documente video), ct i posibilitatea de
de a utiliza metode multimodale. Aceasta a propus un scenariu din lumea real, n care
filmele provin de pe o platform online11, iar categoriile existente cuprind o gam larg:
de la documentare la talkshow-uri i videoblogging.
audio i textual. Apoi, se vor selecta clasificatorii potrivii pentru fiecare descriptor
extras. n final, deciziile clasificatorilor se vor combina prin utilizarea unei strategii
adecvate de fuziune.
Fig. 8.8 Schema sistemului propus pentru clasificarea genului documentelor video web
Este un lucru tiut c diferite canale de informaie multimedia (text, audio, informaii
vizuale) conin informaii cu o putere complementar discriminativ. Pentru acest
experiment au fost utilizate toate sursele de informaie disponibile: de la coninutul vizual
i audio pn la descriptorii cu un nivel ridicat semantic cum ar fi informaia extras din
text (prin utilizarea de algoritmi de recunoatere a vorbirii) sau metadatele completate de
ctre utilizatori (titlul, descrierea coninutului, comentarii etc).
Informaia audio. Anumite genuri de filme conin o semntur audio specific. Spre
exemplu, documentarele utilizeaz un amestec de sunete naturale i monologuri,
videoclip-urile conin diferite genuri de muzic (ex: rock, jazz etc), sporturile au n
componen mult zgomot i monologuri, n timp ce talk-show-urile cuprind dialoguri
ntre diverse persoane. Pentru a descrie aceste aspecte, am dezvoltat un set de descriptori
audio standard care au furnizat rezultate bune n problemele de categorisire a genurilor
muzicale. Descriptorii audio utilizai au lungimea de 196 de valori i conin un set
general de descriptori audio [175]: Linear Predictive Coefficients, Line Spectral Pairs,
172
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
MFCC, Zero-Crossing Rate, spectral centroid, flux, rolloff i kurtosis, toi aceti
descriptori fiind ponderai cu variana pe fiecare trstur pe o anumit fereastr (de
obicei o lungime comun utilizat este de 1,28 s).
Informaia vizual. Din punct de vedere a informaiei vizuale, distribuia de culoare i a
diverselor obiecte pun n eviden diferite genuri. De exemplu, videoclip-urile i
reclamele conin culori mai nchise i o palet larg de efecte vizuale, sporturile au n
componen diferite nuane specifice, buletinele de tiri conin o frecven ridicat de
persoane, anumite genuri conin obiecte specifice sau informaie de context specific.
Pentru a captura aceste particulariti, am dezvoltat o serie de descriptori clasici de
descriere a imaginilor:
- descriptori globali nrudii MPEG-7 (1.007 valori): descriu informaia global de
culoare i textur. Am selectat urmtorul set de descriptori care: Local Binary Pattern
(LBP), autocorelograma, Color Coherence Vector (CCV), ColorLayout Pattern (CLP),
Edge Histogram (EHD), Scalable Color Descriptor (SCD), histograma color clasic HSV
i momente de culoare. Pentru fiecare secven am agregat descriptorii prin calculul
mediei, varianei, skewness, kurtosis, medianului i a rdcinii ptrate medii pe toate
frame-urile.
- descriptori structurali (1.430 valori): descriu informaia de contur (atributele
geometrice ale acestora) i relaiile dintre acestea. n acest scop, am utilizat metoda
propus n [198].
- histograme globale de gradieni orientai (HoG 81 valori) [71]: reprezint o medie
global a descriptorilor HoG calculai pe fiecare frame n parte. Acetia descriu forma
obiectelor dintr-o imagine prin utilizarea distribuiei de orientri de muchii.
- Bag Of Visual-Words (HoG 20.480 valori) [86] am calculat un model Bag of Visual-
Words pe o selecie de keyframe-uri. Pentru acest task am extras un dicionar de 4096
cuvinte vizuale. Cuvintele vizuale sunt extrase prin folosirea unei strategii de eantionare
dense i prin folosirea descriptorilor rgbSIFT. Pentru a calcula acest descriptor am utilizat
metoda propus n [216].
Informaia textual. Textul reprezint cea mai reprezentativ informaie pentru
clasificarea dup gen. Doar un set restrns de anumite cuvinte cheie specific (ex: religie,
economie, muzic) genereaz informaii foarte importante din punct de vedere al genului
documentului. De exemplu, metadata de obicei conine informaii ca titlul sau descrierea
documentului, care sunt foarte corelate cu conceptele de gen. Pentru descrierea genului,
am adaptat o abordare clasic, i anume metoda Term Frequency-InverseDocument
Frequency (TF-IDF). Textul extras din documentul video poate proveni din dou canale
diferite: convorbirile care pot fi extrase cu ajutorul algoritmilor de recunoatere automat
a vorbirii (Automatic Speech Recognition - ASR) i metadatele completate de ctre
utilizatori. Pentru fiecare dintre cele dou canale am generat un descriptor TD-IDF: TD-
IDF pentru ASR (3466 valori) i TD-IDF pentru metadate (504 valori).
173
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Pentru clasificare am folosit patru dintre cei mai utilizai algoritmi Support Vector
Machines (SVM cu diferite nuclee: liniar, Chi-square - CHI, Radial Basis Functions -
RBF), k-Nearest Neighbor (k-NN), Random Trees (RT) i Extremely Random Forest
(ERF).
Primul experiment prezint performana fiecrei trsturi propuse. Tabelul 8.2 prezint
performanele MAP obinute cu fiecare pereche trstur clasificator (valorile
performanelor maxime sunt ngroate).
Cea mai bun performan pentru descriptorii vizuali este obinut cu setul de
descriptori globali de culoare i textur (nrudii MPEG 7) n combinaie cu clasificatorul
ERF, i anume 26,17%, urmat ndeaproape de histograme HoG cu SVM RBF
(performan de 25,63%). Surprinztor, reprezentarea Bag-of-Visual-Words realizeaz o
performan foarte sczut, obinnd o performan de sub 20% MAP. Descriptorii audio
conin informaie discriminatorie mai bun dect componenta vizual, cea mai bun
performan de 42,33% fiind obinut cu clasificator ERF. n ceea ce privete descriptorii
de text, prin utilizarea metadatelor si a descriptorului Random Forest, am obinut o
performan de 58,66% MAP. Prin folosirea informaiei extrase din TDF-IDF ASR,
performana realizat este cu mult mai sczut dect a descriptorilor audio, obinnd
numai 35,05% (n combinaie cu SVM RBF). Descriptorii text extrai cu ASR realizeaz
o performan mai sczut deoarece acurateea de extragere a textului este realizat n
condiii de zgomot.
Din punct de vedere al performanei clasificatorilor, SVM Liniar i 5-NN tind s
obin performana cea mai sczut. Acest lucru dovedete c descriptorii video nu sunt
liniar separabili iar pentru rezolvarea problemei de clasificare a genului sunt necesari
algoritmi mai compleci de clasificare. n urmtorul capitol vom investiga avantajele
combinrii diferitelor modaliti i impactul schemelor de fuziune.
Tab. 8.2 Performana trsturilor propuse pentru clasificarea genului (valori MAP).
174
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
n aceast parte, vom compara performana algoritmilor de late fusion cu alte rezultate
obinute pe baza MediaEval 2012. n acest sens, vom lua ca referin cele mai bune
rezultate raportate la concursul MediaEval 2012. Rezultatele sunt prezentate n Tabelul
8.4 n ordinea descresctoare a performanei (trebuie notat c rezultatele obinute la
175
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
176
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
8.3.4 Concluzii
177
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Definiia violenei poate nsemna aciuni sau cuvinte cu intenia de a rni persoane sau
violen fizic sau accidental care are ca rezultat rnirea sau suferina provocat unei
persoane, ns din punct de vedere al analizei violenei n filme aceasta poate fi definit
i prin prezena unor indicatori audio-vizuali, ca de exemplu aciunea sau muzica cu ritm
alert.
Problema de detecie a violenei este una complex deoarece apar probleme att
cu definirea conceptului ct i cu realizarea de descriptori cu o putere discriminatorie
ridicat. Metoda propus i propune s abordeze detecia violenei n contextul filmelor
de la Hollywood. Aceasta se bazeaz pe o metod de fuziune a conceptelor de nivel
mediu prin utilizarea unor reele neurale multi-layer perceptron.
Cele mai multe metode propuse la MediaEval Violence Detection Task s-au
concentrat pe dezvoltarea de trsturi care descriu ct mai bine conceptul de violen.
Deoarece majoritatea trsturilor prezentate descriu concepte de nivel sczut, intervine
paradigma semantic [10], iar sistemele propuse au de cele mai multe ori o performan
sczut. n schimb, metoda propus n [206] [118], utilizeaz un nou tip de arhitectur,
care iniial estimeaz conceptele de nivel mediu i apoi le utilizeaz n detecia
conceptelor de nivel nalt (n cazul nostru violena). Prin predicia iniial a conceptelor
de nivel mediu i abia apoi a termenului de violen ar trebui obinute performane
superioare cazului n care ncercm s detectm direct conceptele de nivel ridicat. n
cadrul acestui algoritm, contribuia mea a costat n selecia i calculul trsturilor vizuale
utilizate, restul contribuiilor aparinnd celorlaltor autori.
Algoritmul propus n [118] [206], prezint mai muli pai. Iniial, trsturile sunt extrase
la nivel de frame, iar apoi acestea sunt utilizate ca date de intrare pentru un prim nivel de
clasificatori. Apoi, fiecare clasificator din acest prim nivel va estima conceptele de nivel
mediu. Fiecare scor, al unui clasificator din primul nivel va fi folosit pentru estimarea
gradului de violen. n cele ce urmeaz vom detalia fiecare nivel n parte. Pentru
antrenarea sistemului vom folosi etichetarea conceptelor la dou nivele: conceptele care
sunt de obicei prezente n scenele violente: ca de exemplu exploziile, prezena armelor de
foc i a aciunii i etichetele care arat c un segment este sau nu violent. O diagram a
metodei propuse este prezentat n Figura 8.9.
Metoda propus se evideniaz fa de metodele prezentate n State-of-the-Art
prin urmtoarele aspecte:
- am testat sistemul propus pe un scenariu complex, n care violena implic att
njurturi ct i durere
- datorit fuziunii prediciilor conceptelor de nivel mediu, metoda este independent de
trsturi, n sensul c nu sunt necesari descriptori adaptai.
178
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 8.9 Schema sistemului propus pentru detecia violenei n documentele video
Pentru a antrena sistemul am utilizat dou tipuri de etichete: cele care sunt asociate
conceptelor ce presupun prezena scenelor violente (ca de exemplu prezena focului de
arm, a exploziilor i a incendiilor) i cele care conin prezena sau absena gradului de
violen (violent/nonviolent). Pentru antrenare am utilizat datele puse la dispoziie de
organizatorii MediaEval Affective Task [222]. Detecia conceptelor de nivel mediu se
obine prin utilizarea unui set de clasificatori care sunt antrenai pentru a clasifica primul
set de concepte asociate violenei. Pentru antrenarea acestor descriptori am efectuat mai
multe seturi de cros-validri pe baza de date de antrenare, i am utilizat parametri care
ofer performana maxim.
Pentru a selecta clasificatorul care realizeaz cele mai bune performae, am testat
o serie de clasificatori cunoscui: SVM, arbori de decizie i reele neurale. Cele mai multe
dintre ele au euat n a asigura rezultate relevante. Arhitectura reelelor neurale s-a
potrivit cel mai bine acestor cerine, n particular prin utilizarea unei arhitecturi multi-
layer cu perceptroni. Prin urmare, pentru a clasifica conceptele de violen am utilizat o
arhitectur cu un singur strat ascuns i cu 512 perceptroni (funcii sigmoid). Reeaua a
fost antrenat cu algoritmul gradient descent i backpropagation [209], utiliznd
179
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
ideea prezentat n [223] pentru a mbunti performana. Pentru fiecare set de antrenare,
o fraciune din perceptronii din stratul de intrare i cel ascuns sunt lsai la o parte.
Aceast arhitectur poart numele de dropped-out. Setul de uniti lsate la o parte sunt
alese n mod aleatoriu pentru fiecare frame de antrenare, astfel c o gam mare de variaii
vor fi antrenate doar ntr-o singur epoc. Acest lucru ajut procesul de generalizare prin
urmtoarele aspecte: prin omiterea unui numr aleatoriu de uniti, reeaua nu se va putea
adapta unei combinaii specifice. ns, prin omiterea doar a unei fraciuni, modelul care
trebuie clasificat i antrenat va fi recunoscut cu uurin. Spre exemplu, scrisul de mn
este recunoscut chiar daca anumite litere sunt lips. Reeaua cu dropped-out va lua n
considerare doar anumite corelaii ntre trsturi, ceea ce va conduce la o antrenare doar a
trsturilor care sunt mai robuste. n [223] s-a demonstrat c reeaua cu drop-out
prezint un grad de generalizare mai ridicat, obinnd rezultate superioare pe un numr
ridicat de probleme. Astfel, deoarece aceste reele neurale nu au probleme de
overfitting, este eliminat nevoia de utilizare a unei baze de validare pentru optimizarea
parametrilor.
Descriptori video
180
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
181
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
182
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
8.4.3 Concluzii
12
http://www.microsoft.com/en-us/kinectforwindows/
13
http://www.asus.com/Multimedia/Xtion_PRO_LIVE/
183
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Pe de alt parte, trsturile de nivel sczut (muchii, contururi) sunt de preferat datorit
vitezei ridicate de extracie [235].
n continuare, voi prezenta o metod utilizat n contextul recunoaterii de gesturi
statice cu mna prin utilizarea unui senzor de Kinect. n acest sens, am utilizat att
informaia de culoare ct i cea de adncime a senzorului. Robusteea metodei propuse
face ca sistemul s fie imun la schimbrile de fundal i invariant la modificrile de scal
i a uoarelor rotaii. Mai mult, fiecare cadru individual este procesat n 32 ms, suficient
de rapid pentru cele mai multe dintre aplicaiile n timp real. Aceast metod a fost
propus de autorul principal al articolului, contribuia mea n cadrul acestui algoritm
constnd n proiectarea bazei de date de testare, selecia i calculul performaei
algoritmilor utilizai n literatur, ct i a anumitor elemente din cadrul algoritmului.
184
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Pentru antrenare i validare am utilizat baza de date propus n [236]. Aceast baz este
mprit n dou pri. Prima conine 9 gesturi (50 pentru fiecare categorie)
nregistrate n condiii lipsite de zgomot. Aceasta cuprinde gesturi nregistrate de ctre
o singur persoan i include mici variaii de scal, translaie i rotaie. Modelul
markovian este antrenat cu ajutorul acestor imagini. Pentru validarea sistemului este
folosit un al doilea set, imaginile fiind preluate de la aceeai persoan (n jur de 7300
de imagini). Pentru testare, a fost nregistrat o a doua baz de date, aceasta avnd o
arhitectur mult mai complicat, i anume include diferite grade de variaie a
luminozitii, fundal diferit i variaie ampl a unghiurilor de rotaie. n total, aceasta
cuprinde peste 8500 de imagini, nregistrate de ctre 6 persoane n faa unui dispozitiv
de Kinect. Subiecii au efectuat o gam variat de micri ntr-un interval de 1-1,5
metri n faa dispozitivului de Kinect.
n continuare, vom compara performana metodei propuse cu algoritmii [237]
i [238]. Primul algoritm utilizeaz o descriere structural a fiecrui gest bazat pe o
serie de trsturi de nivel nalt, ca de exemplu numrul de vrfuri ale degetelor,
numrul de segmente i poziia lor n cadrul poziiei minii. Clasificarea este
efectuat cu ajutorul unor arbori de decizie. A doua metod extrage un set de
descriptori de culoare mpreun cu momentele invariante Hu, pe care le combin apoi
cu un clasificator SVM. Mai mult, pentru a demonstra c algoritmul de clasificare
HMM este o soluie bun, voi compara performana acestuia cu un algoritm clasic de
clasificare: SVM.
185
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Fig. 8.9 Rezultatele clasificrii pe fiecare gest utiliznd diferite metode de clasificare:
Metoda 1 [237] , Metoda 2 [238] , SVM i metoda propus
8.5.3 Concluzii
186
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 9
Concluzii
Lucrarea de fa reprezint o formalizare a contribuiilor teoretice i practice n domeniul
indexrii i analizei bazelor de date multimedia. Prin intermediul acesteia, am rezumat
munca depus n ultimii trei ani, n perioada de formare tiinific a studiilor doctorale.
Punctul de plecare comun al tuturor metodelor i algoritmilor noi descrii pe
parcursul acestei lucrri a fost corelat cu nevoia de a creea sisteme care s indexeze i s
interpreteze coninutul multimedia. Utilizarea documentelor multimedia face parte din
viaa cotidian a oricui. Fie ca este vorba de muzic, informaii text, filme, sau imagini,
un sistem de indexare a coninutului are n componen anumite elemente comune, chiar
dac structura informaiei este una diferit.
n cadrul acestei teze am abordat mai multe scenarii i tipuri de sisteme de
indexare. Un prim tip de sistem de indexare a fost cel al bazelor de date de imagini
(sisteme CBIR). Astfel, am propus metode noi i am efectuat analize pe baze de date de
imagini medicale, imagini de textur sau imagini naturale. De asemeni, am ncercat s
reduc influena paradigmei semantice (semantic gap), prin propunerea i utilizarea unor
algoritmi de relevance feedback. Sistemele de indexare a documentelor video reprezint
un alt subiect discutat n aceast lucrare. n aceast direcie, a fost propus un set de
metode pentru indexarea i clasificarea bazelor de date video n diferite contexte: detecia
genului, a violenei sau interpretarea coninutului prin clasificarea aciunilor din cadrul
filmelor. n acest sens, coninutul video a fost analizat din mai multe perspective i
modaliti, informaia prelucrat fiind att de natur vizual, ct i audio i textual.
187
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
188
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
189
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
performana crete de la 71% la 87%, n timp ce pentru baza de imagini naturale rata de
recunoatere aproape se dubleaz de la 37% la 60% MAP. Mai mult, algoritmul propus
obine rezultate superioare fa de ceilali algoritmi: spre exemplu, n cazul imaginilor de
textur, performana crete cu peste 2 procente i cu 8 procente n cazul bazei de imagini
naturale.
Al doilea algoritm de relevance feedback propus utilizeaz o structur
arborescent capabil s nvee rapid i eficient preferinele utilizatorului, chiar dac
utilizm un set restrns de exemple de nvare. Iniial, algoritmul a fost propus pentru
mbuntirea performanei bazelor de date cu imagini naturale. n acest scop, am testat
pe dou baze de date publice i foarte cunoscute: Caltech 101 i Microsoft. Prin utilizarea
setului de descriptori MPEG 7, metoda propus prezint o cretere de performan de la
30,21% la 64,52%. Cea mai mic cretere de performan este obinut pe baza de date
Caltech 101, folosind Bag of Visual-Words (SURF): de la MAP egal cu 10,90% pn la
18,44%. Mai mult, n cazul n care efectum sesiuni multiple de feedback, performana
poate fi mbuntit pn la 84,71%, pentru baza Microsoft, n timp ce pentru Caltech
101 se obine o cretere pn la 55,78%. Pentru ambele baze de date, metoda propus
obine rezultate mai bune dect cele raportate n literatur (3% pentru Caltech 101 i 6%
pentru baza Microsoft).
Ultimul algoritm de relevance feedback este inspirat de modelul Fisher kernel,
fiind propus n contextul indexrii de bazelor de date video web. Algoritmul a fost testat
pe o varietate de descriptori multimedia: vizuali, audio i textuali. Testat pe o baz de
date mare (MediaEval 2012), i utiliznd o serie de descriptori care reprezint state-of-
the-art (vizuali, audio i text), metoda noastr FKRF mbuntete performana
rezultatelor, surclasnd alte metode existente ca: Rocchio, Nearest Neighbors RF, Boost
RF, SVM RF, Random Forest RF i RFE. Mai mult, n cazul n care capturm informaia
temporal utiliznd Fisher kernel, performana este drastic mbuntit de la 40,80% la
45,83% pentru MPEG 7 i de la 29,59% la 32,87% pentru trsturile HoG. De asemeni,
am artat c nu este necesar un numr ridicat de centroizi GMM pentru a antrena metoda,
aceasta obinnd rezultate bune cu numai 5-10 centroizi. Astfel, agoritmul este rapid,
putnd fi implementat n sisteme n timp real.
n Capitolul 8 am prezentat diferii algoritmi i soluii pentru anumite probleme
de interes de clasificare multimedia. n prima parte a capitolului, am ilustrat metode i
studii efectuate pe dou baze de date medicale. Primul experiment a fost creat pe o baz
de date de imagini otoscopice i i propunea detecia otitei din imagini extrase de
otoscop. O prim baz conine imagini medicale otoscopice, iar algoritmul propus este un
sistem utilizat n detecia otitei la copii. n cadrul acestui experiment am propus un set de
descriptori i o arhitectur de fuziune clasic pentru combinarea trsturilor de culoare,
textur i puncte de interes. Sistemul propus a obinut un rezultat mai bun cu 14% dect
cele raportate n literatur, ceea ce reprezint o mbuntire considerabil.
190
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
191
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
antrenarea sistemului. Primul autor a propus o metod care utilizeaz un pas intermediar,
ce const n predicia conceptelor asociate cu violena, ca de exemplu: ipete, explozii,
sunete de arme etc. Predicia conceptelor corelate cu violena a reprezentat o problem
mai uor de implementat dect detecia direct a gradului de violen. Prin utilizarea
acestei arhitecturi, s-a obinut cea mai ridicat performan, cu mai mult 6% dect a doua
echip clasat (echipa ShanghaiHongkong), care a obinut un scor de 43,73%. n
cadrul acestui algoritm am avut contribuii pentru descrierea vizual a coninutului
multimedia. Nu n ultimul rnd, metoda propus a fost singura din competiie care a putut
fi implementat att la nivel de segment ct i la nivel de cadru.
n finalul capitolului am prezentat o metod nou de recunoatere a gesturilor
statice de mn. Algoritmul propus const n extragerea unor trsturi clasice de contur i
antrenarea sistemului cu un model statistic Hidden Markov Model. Acesta este robust la
schimbri majore de fundal, persoane, luminozitate, obinnd n acelai timp performane
mai bune dect ali algoritmi prezentai n literatur.
Prezenta tez se ncheie cu Capitolul 9 care este dedicat prezentrii concluziilor
care se desprind din aspectele teoretice i practice ale cercetrilor prezentate n aceast
lucrare i care sintetizeaz rezultatele i contribuiile personale originale, precum i
perspectivele de cercetare.
192
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
193
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
am ajutat la construirea mai multor baze de date multimedia. n [c9, c10, c11] am
utilizat o baz de date de imagini naturale, cu un total de 2700 documente, preluate de
pe internet prin utilizarea unor cutri specifice pe motorul de cutare Google.
Aceasta are n componen 100 de categorii de imagini clasice naturale, ca de
exemplu: anotimpuri, cldiri, ocean, deert, copii, concerte, portrete, picturi, orae
faimoare (Londra, Paris etc), persoane, sport, animale, mncare. O a doua baz de
date este cea utilizat n [c12]. Aici, am propus o baz de date video, iar aceasta a fost
folosit pentru antrenarea unui sistem de categorizare a genului unui film. Aceast
baz cuprinde 91 de ore de coninut video mprit n 7 categorii: filme de animaie
(filme scurte, lungi i seriale), reclame, documentare (viaa slbatic, ocean, orae i
istorie), videoclipuri (pop, rock i dance), tiri i sport (fotbal). n total, baza conine
210 documente video, 30 pe gen. De asemenea, am ajutat la crearea bazei de date de
gesturi statice utilizate n [c25]. n final, n [c5] am ajutat la construirea bazei pentru
seciunea de Diversity Task din cadrul MediaEval 2013.
n [c20] am propus un nou algoritm de relevance feedback pentru bazele de date
video, utiliznd Fisher kernels. Testat fiind pe o baz de date mare (MediaEval
2012) i utiliznd o serie de descriptori state-of-the-art (vizuali, audio i text), metoda
noastr FKRF mbuntete performana rezultatelor, surclasnd alte metode
existente ca: Rocchio, Nearest Neighbors RF, Boost RF, SVM RF, Random Forest
RF i RFE. De asemeni, am prezentat o metod de a captura informaia temporal,
utiliznd Fisher Kernel, astfel nct s folosim mai mult de un vector descriptor
pentru un document video. Am artat c nu este necesar un numr ridicat de centroizi
GMM pentru a antrena metoda, aceasta obinnd rezultate bune cu numai 5-10
centroizi, fapt ce implic posibilitatea implementrii n timp real.
n [c21, c22] am propus o metod pentru detecia automat a genului unui film. n
aceast direcie am studiat contribuiile diferitelor modaliti i rolul mecanismului de
fuzionare n combinarea informaiei i creterea performanei. Dei metodele propuse
au fost mai mult sau mai puin explorate anterior n literatur, principalele contribuii
ale acestui capitol sunt: (a) o analiz n profunzime a unui set multimodal de
descriptori, n contextul unui scenariu real de detecie de gen, (b) dovedirea
potenialului pe care l are o strategie adecvat de late-fusion, pentru a atinge o
performan foarte bun, (c) demonstrarea c, n ciuda superioritii descriptorilor de
metadate, descriptorii multimodali n combinaie cu late fusion pot atinge
performane similare, (d) instituirea unui nou punct de plecare pentru baza de date
MediaEval, obinnd rezultate superioare celor raportate n cadrul competiiei i (e)
relevana rezultatelor ce le face s fie i reproductibile ntruct evaluarea s-a fcut pe
o baz de date standard.
n [c23] am extins modelul variaiei temporale propus n [c20], pentru un set larg de
probleme. Metoda propus pentru modelarea variaiei temporale are un caracter foarte
general, fiind testat pe o varietate de baze de date de referin: de la clasificare de
194
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
gen (MediaEval 2012) pn la recunoatere de aciuni sportive (UCF Sport 50) sau de
aciuni cotidiene (ADL). Mai mult, algoritmul propus a fost evaluat pe o varietate de
trsturi, de la histograme HOG, CN i HoF pn la trsturi HoF extrase pe
componentele corpului uman i trsturi clasice audio. Sistemul propus a obinut
rezultate similare sau mai bune dect cele propuse n literatur, dei am utilizat un set
de trsturi mai uor de calculat.
n [c6] am propus o interfa grafic (Id-Image) pentru indexarea i manipularea
bazelor de date de imagini.
n [c25], alturi de primul autor, am propus o metod pentru clasificarea automat a
gesturilor clasice ale minii.
[c1] Ionu Mironic, Radu Dogaru, A novel feature-extraction algorithm for efficient
classification of texture images, in Scientific Bulletin of UPB, Seria C - Electrical
Engineering, vol 75(2), pp. 101-114, ISSN 2286 3540, 2013.
[c2] Bogdan Ionescu, Klaus Seyerlehner, Ionu Mironic, Constantin Vertan, Patrick
Lambert, An Audio-Visual Approach to Web Video Categorization, Multimedia
Tools and Applications, pp. 1-26, DOI 0.1007/s11042-012-1097-x 2012 (factor
impact ISI 0.91).
Competiii
[c3] participare MediaEval 2012 seciunea Tagging Task membru n cadrul echipei
ARF, cu membrii: Bogdan Ionescu, Ionu Mironic, Klaus Seyerlehner, Peter
Knees, Jan Schlter, Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert
Am obinut locul 2 pentru pentru cel mai bun sistem (din 29 de sisteme propuse)
[c4] participare MediaEval 2012 seciunea Violence Detection membru n cadrul
echipei ARF, cu membrii: Jan Schlter, Bogdan Ionescu, Ionu Mironic, Markus
Schedl Am obinut locul 1 pentru pentru cel mai bun sistem (din 35 de sisteme
propuse)
[c5] organizare Mediaeval 2013 - seciunea Diversity Task - membru organizator n
echipa format de: Bogdan Ionescu, Maria Menndez, Adrian Popescu,
Henning Mller, Anca-Livia Radu, Ionu Mironic i Bogdan Boteanu
195
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Rapoarte de cercetare
[c8] Ionu Mironic, Constantin Vertan, Relevance feedback approaches for MPEG-7
content-based biomedical image retrieval, in Proc. of Communications COMM,
pp. 185-188, IEEE Catalog Number: CFP1041J-ART, ISBN: 978-1-4244-6363-3,
iunie 2010, Bucureti, Romania - indexat ISI.
[c9] Ionu Mironic, Radu Dogaru, A comparison between various classification
methods for image classification stage in CBIR, Signals, Circuits and Systems
(ISSCS), pp. 301-304, (IEEE Catalog number CFP11816-PRT, ISBN 978-1-4577-
0201-3), iulie 2011, Iai Romania - indexat ISI.
[c10] Ionu Mironic, Constantin Vertan An Adaptive Hierarchical Clustering
Approach for Relevance Feedback in Content-based Image Retrieval Systems,
Signals, Circuits and Systems (ISSCS), pp. 133-136, (IEEE Catalog number
CFP11816-PRT, ISBN 978-1-4577-0201-3), iulie 2011, Iai, Romania - indexat
ISI.
[c11] Ionu Mironic, Constantin Vertan A Modified Feature Relevance Estimation
Approach to Relevance Feedback in Content-Based Image Retrieval Systems,
Signal Processing and Applied Mathematics for Electronics and Communications,
Eurasip, pp. 109-113, 26-28 august, 2011, Cluj-Napoca, Romania.
[c12] Ionu Mironic, Constantin Vertan, Bogdan Ionescu A Relevance Feedback
Approach to Video Genre Retrieval, International Conference on Intelligent
Computer Communication and Processing, pp. 327-330, (ISBN 978-1-4577-1478-8,
IEEE Catalog No. CFP1109D-PRT), august, 2011, Cluj-Napoca, Romania -
indexat ISI.
[c13] Ionu Mironic, Constantin Vertan, Dan Cristian Gheorghe Automatic Pediatric
Otitis Detection by Classification of Global Image Features, International
Conference on e-Health and Bioengineering, EHB, pp. 427-430, ISBN: 978-606-
544-078-4, noiembrie, 2011, Iai, Romania - indexat ISI.
[c14] Ionu Mironic, Bogdan Ionescu, Constantin Vertan, Hierarchical Clustering
Relevance Feedback for Content-Based Image Retrieval, IEEE/ACM 10th
International Workshop on Content-Based Multimedia Indexing, pp. 187-192,
ISBN: 978-1-4673-2369-7, IEEE Catalog Numbers: CFP1214C-ART, CFP1214C-
USB, 27-29 iunie, Annecy, Frana, 2012 - indexat ISI.
196
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
[c15] Bogdan Ionescu, Klaus Seyerlehner, Ionu Mironic, Constantin Vertan, Patrick
Lambert, Automatic Web Video Categorization using Audio-Visual Information and
Hierarchical Clustering Relevance Feedback, 20th European Signal Processing
Conference - EUSIPCO 2012, pp. 375-379, ISSN 2076-1465, 27-31 august,
Bucureti, Romania - indexat ISI.
[c16] Ionu Mironic, Bogdan Ionescu, Constantin Vertan, The Influence of the
Similarity Measure to Relevance Feedback, 20th European Signal Processing
Conference - EUSIPCO 2012, pp. 1573-1576, ISSN 2076-1465, 27-31 august,
Bucureti, Romania, 2012 - indexat ISI.
[c17] Jan Schlter, Bogdan Ionescu, Ionu Mironic, Markus Schedl, ARF @
MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywood
Movies, MediaEval Benchmarking Initiative for Multimedia Evaluation workshop
Pisa, Italia, 4-5 octombrie, 2012.
[c18] Bogdan Ionescu, Ionu Mironic, Klaus Seyerlehner, Peter Knees, Jan Schlter,
Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert, ARF @ MediaEval
2012: Multimodal Video Classification, MediaEval Benchmarking Initiative for
Multimedia Evaluation workshop, Pisa, Italia, 4-5 octombrie, 2012.
[c19] Bogdan Ionescu, Jan Schlter, Ionu Mironic, Markus Schedl, A Naive Mid-
level Concept-based Fusion Approach to Violence Detection in Hollywood
Movies, ACM International Conference on Multimedia Retrieval - ICMR 2013,
pp. 215-222, ISBN: 978-1-4503-2033-7, Dallas, Texas, USA, 16 19 aprilie, 2013
- indexat ISI.
[c20] Ionu Mironic, Bogdan Ionescu, Jasper Uijlings, Nicu Sebe, Fisher Kernel based
Relevance Feedback for Multimodal Video Retrieval, ACM International
Conference on Multimedia Retrieval - ICMR 2013, pp. 65-72, ISBN: 978-1-4503-
2033-7, Dallas, Texas, USA, 16 19 aprilie, 2013 - indexat ISI.
[c21] Ionu Mironic, Bogdan Ionescu, Peter Knees, Patrick Lambert, An In-Depth
Evaluation of Multimodal Video Genre Categorization, IEEE/ACM 11th
International Workshop on Content-Based Multimedia Indexing - CBMI,
Veszprm, Ungaria, iunie, 2013 - indexat ISI.
[c22] Ionu Mironic, Bogdan Ionescu, Christoph Rasche, Patrick Lambert, A Visual-
based Late-Fusion Framework for Video Genre Classification Signals, Circuits
and Systems (ISSCS), iunie 2013, Iai, Romania - indexat ISI.
[c23] Ionu Mironic, Jasper Uijlings, Negar Rostamzadeh, Bogdan Ionescu, Time
Matters! Capturing Temporal Variation in Video using Fisher Kernels, in ACM
Multimedia - ACM MM 2013, Barcelona, Spania, octombrie 2013 - indexat ISI.
[c24] Negar Rostamzadeh, Gloria Zen, Ionu Mironic, Jasper Uijlings, Nicu Sebe,
Daily Living Activities Recognition via Efficient High and Low Level Cues
Combination and Fisher Kernel Representation, International Conference on
197
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Image Analysis and Processing, ICIAP, Napoli, Italia, septembrie, 2013 - indexat
ISI.
[c25] Radu-Laureniu Vieriu, Ionu Mironic, Bogdan-Tudor Gora, Background
Invariant Static Hand Gesture Recognition based on Hidden Markov Models,
Signals, Circuits and Systems (ISSCS), iunie 2013, Iai, Romania - indexat ISI.
Cri
198
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Capitolul 10
Bibliografie
[1] S. Santini: Exploratory Image Databases Content-based Retrieval, Academic Press,
Inc. Duluth, MN, USA, ISBN:0-12-619261-8, 2001.
[2] D. H. Brown, C.M. Ballard, Computer Vision, Prentice-Hall, Englewood Cliffs,
N.J., 1982.
[3] R. Haralick, L. Shapiro, Computer and Robot Vision II, Addison-Wesley, Reading,
MA, 1993.
[4] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang Query by image and
video content: the QBIC system, IEEE Computer, vol 28(9), pp. 23-32, 1995. ISSN:
0018-9162.
[5] J. Bach, C. Fuller, A. Gupta, A. Hampapur, B. Horowitz, R. Humphrey, R. C. Jain,
C.-F. Shu, Virage image search engine: an open framework for image management, in
Proc. of Storage and Retrieval for Still Image and Video Databases, 1996. Proc. SPIE
2670, 76.
[6] J. Eakins, M. Graham, Content-based image retrieval, Technical Report. JTAP-
039, JISC Technology Application Program, 2000.
[7] A. Gupta, R. Jain, Visual information retrieval, in Proc. of Communications of the
ACM, vol. 40(5), pp. 70-79, 1997.
[8] J. Feder, Towards image content-based retrieval for the World-Wide Web, in Proc.
of ACM on Advanced Imaging, vol. 11(1), pp. 26-29, 1996.
[9] R.J. Smith, F.S. Chang, Querying by color regions using the VisualSEEk content-
based visual query system, in Proc. of Intelligent Multimedia Information Retrieval,
pp. 23-41, 1997.
[10] A.W. Smeurdels, M. Worring, S. Santini, A. Gupta, R. Jain, Content-based image
retrieval at the end of the early years, in IEEE Trans. Pattern Analysis Machine
Intelligence, vol. 22(12), pp. 13491380, 2000.
[11] I. Mironic, Sisteme de Cutare a Imaginilor dup Coninut, Raport de cercetare
nr.1, iunie 2011.
[12] G.P. Nguyen, M. Worring, Optimization of Interactive Visual-Similarity-Based
Search, in Proc. of ACM Transactions on Multimedia Computing, Communications
and Applications, vol. 4 (1), pp. 1-23, 2008.
[13] C. Vertan, M. Ciuc, C. Fernandez-Maloigne, V. Buzuloiu, Browsing Image
Databases by 2D Image Similarity Scatter Plots, in Proc. of System of Intelligence
Symposyum Communications, Bucureti, Romania, 5-7 Dec. 2002, Proceedings of
International Conference Communications, pp. 397402, 2002.
199
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
[14] J. B. Tenenbaum, V.D. Silva, J.C. Langford, A global geometric framework for
nonlinear dimensionality reduction, iScience(290) (5500), pp. 2319-2322, 2000.
[15] C. Faloutsos, K. I. D. Lin, FastMap: A fast algorithm for indexing, datamining and
visualization of traditional and multimedia datasets, in Proc. of ACM SIGMOD, vol.
24(2), pp. 163174, 1995.
[16] M. Steyvers, Multidimensional Scaling, in Macmillan Encyclopedia of Cognitive
Sciences, pp. 21-27, 2002.
[17] S. Roweis, L. Saul, Nonlinear dimensionality reduction by locally linear
embedding, in Science, vol. 290(5500), pp. 23232326, 2000.
[18] G. Hinton, S. Roweis, Stochastic neighbor embedding, in Proc. of Advances
Neural Information Processing Systems, vol. 15, pp. 833840, 2002.
[19] A. Oerlemans, S. M. Lew, RetrievalLab A programming tool for content based
retrieval, in Proc of ACM International Conference on Multimedia Retrieval,
ICMR, Trento, 2011.
[20] O. Rooij, M. Worring, J. J. van Wijk, MediaTable: Interactive Categorization of
Multimedia Collections, in IEEE Proc. of Computer Graphics and Applications, vol.
30(5), pp. 42-51, 2010.
[21] M. Nakazato, S. T. Huang, 3D MARS: Immersive virtual reality for content based
image retrieval, in Proc. of International Conference on Multimedia and Exposition
(ICME), pp. 45-48., Tokyo, 2001.
[22] K. Schoeffmann, L. Boeszoermenyi, Image and Video Browsing with a Cylindrical
3D Storyboard, in Proc.of ACM International Conference on Multimedia Retrieval
ICMR, Trento, 2011.
[23] E. Deza, M. M. Deza, Dictionary of Distances, Elsevier Science, 1st edition,
ISBN-13: 978-0-444-52087-6, 2006.
[24] P. Howarth, S. Ruger, Fractional distance measures for content-based image
retrieval, in Proc. of European Information Retreival Conferece ECIR , pp. 447-
456, 2005.
[25] M. Kokare, B. Chatterji, P. Biswas, Comparison of similarity metrics for texture
image retrieval, in Proc. of IEEE Conf. on Convergent Technologies, vol. 2, pp. 571-
575, 2003.
[26] D. Zhang, G. Lu, Evaluation of similarity measurement for image retrieval, in
Proc. of IEEE International Conference on Neural Networks Signal, pp. 928-931,
Nanjing, 2003.
[27] T. Ojala, M. Pietikainen, D. Harwood, Comparative study of texture measures with
classification based on feature distributions, in Proc. of the Pattern Recognition, vol.
29(1), pp. 51-59, 2002.
[28] J. Puzicha, T. Hofmann, J. M. Buhmann, Non-parametric similarity measures for
unsupervised texture segmentation and image retrieval, in Proc. of the IEEE
200
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
201
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
202
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
203
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
204
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
205
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
206
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
207
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
[136] M. Verleysen, D. Franois, The curse of dimensionality in data mining and time
series prediction, in Computational Intelligence and Bioinspired Systems, pp. 85-
125, 2005.
[137] X. S. Zhou, T. S. Huang, Relevance feedback in image retrieval: A comprehensive
review, in Multimedia Systems, vol. 8(6), pp. 536-544, 2003.
[138] J. Han, N. King, Li Mingjing, H.-J. Zhang, A Memory Learning Framework for
Effective Image Retrieval, in IEEE Trans. on Image Processing, vol. 14(4), pp. 511-
524, 2005.
[139] J. Rocchio, Relevance Feedback in Information Retrieval, in The Smart
Retrieval System Experiments in Automatic Document Processing, Prentice Hall,
Englewood Cliffs NJ, pp. 313-323, 1971.
[140] Y. Lu, C. Hu, X. Zhu, H. Zhang, Q. Yang, A unified framework for semantics and
feature based relevance feedback in image retrieval systems, in Proc. of the ACM
Multimedia International Conference, pp. 31-37, 2000.
[141] Y. Ishikawa, R. Subramanya, C. Faloutsos, Mindreader: Query databases through
multiple examples, in Proc. of the Int. Conf. on Very Large Databases VLDB, 1998.
[142] D. J. Harper, C. J. Van Rijsbergen, An evaluation of feedback in document
retrieval using co-occurrence data, in Journal of Documentation, vol. 34(3), pp. 189-
216, 1978.
[143] Y. Rui, T. S. Huang, M. Ortega, S. Mehrotra, Relevance feedback: A power tool
for interactive content-based image retrieval, in IEEE Trans. Circuits and Systems for
Video Technology, vol. 8(5), pp. 644-655, 1998.
[144] C. Dorai, S. Venkatesh, Bridging the Semantic Gap with Computational Media
Aesthetics, in ACM Multimedia, vol. 10(2), pp. 15-17, 2003.
[145] H. Zhang, The optimality of Naive Bayes, AAAI Press, vol 1(2), 2004. .
[146] I.J. Cox, M. Miller, T. P. Minka, T. Papathomas, P. Yianilos, The Bayesian image
retrieval system, PicHunter: theory, implementation, and psychophysical experiments, i
IEEE Trans Image Processing, vol. 9(1), pp. 2037, 2000.
[147] R. Zhang, R.M., Zhang, BALAS: Empirical Bayesian learning in the relevance
feedback for image retrieval, in Journal of Image and Vision Computing, vol. 24(3),
pp. 211-223, 2006.
[148] V. N. Vapnik, Statistical Learning Theory, in New York: John Wiley & Sons,
1998.
[149] D. Tao, X. Tang, X. Li, X. Wu, Asymmetric bagging and random subspace for
support vector machines-based relevance feedback in image retrieval, in IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 28(7), pp. 1088-
1099, 2006.
[150] Y. Chen, X. S. Zhou, T. S. Huang, One-class SVM for learning in image
retrieval: in Int. Conference on Image Processing, vol. 1, pp. 34-37, 2001.
208
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
209
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
210
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
211
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
212
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
213
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
214
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
215