LucrareDoctorat IonutMironica LAPI ETTI 2013

.
UNIVERSITATEA POLITEHNICA din BUCURETI
COALA DOCTORAL ETTI-B

Nr. Decizie .. din
TEZ DE DOCTORAT
TEHNICI INTELIGENTE PENTRU ANALIZA I
CLASIFICAREA COLECIILOR DE BAZE DE DATE
MULTIMEDIA
INTELLIGENT TECHNIQUES FOR MULTIMEDIA

DATABASES COLLECTIONS ANALYSIS AND
CLASSIFICATION
Doctorand: Ing. Ionu Mironic
COMISIA DE DOCTORAT
Preedinte prof. dr. ing. Gheorghe de la Univ. Politehnica
BREZEANU Bucureti
Conductor de prof. dr. ing. Radu DOGARU de la Univ. Politehnica
doctorat Bucureti
Referent prof. dr. ing. Constantin de la Univ. Politehnica
VERTAN Bucureti
Referent conf. dr. ing. Nicu SEBE de la Univ. din Trento,
Italia
Referent conf. dr. ing. Laureniu de la Univ. Transilvania
Mihail IVANOVICI Braov
BUCURETI 2013
______________
.
Tehnici Inteligente pentru analiza i clasificarea coleciilor de baze de date multimedia
Mulumiri
O dat cu finalizarea acestei etape din viaa mea, mi doresc s adresez cteva cuvinte
de mulumire celor care m-au ndrumat sau mi-au acordat suportul pe parcursul
acestei lucrri de doctorat.
n primul rnd mi doresc s mulumesc coordonatorului meu tiinific,
domnului Prof. dr. ing. Radu DOGARU, pentru permanenta sa ndrumare, sprijinire i
ncurajare de-a lungul perioadei de pregtire a doctoratului i de elaborare a tezei. n
egal msur, doresc s i mulumesc domnului Prof. dr. ing. Constantin VERTAN,
cel care m-a introdus n lumea prelucrrii de imagini i m-a sprijinit n mod constant
pe toat perioada studiilor doctorale.
n continuare, doresc s mi exprim gratitudinea fa de membrii comisiei de
evaluare a lucrrii pentru sfaturile i sugestiile oferite. Doresc s mulumesc n mod
special domnului Prof. dr. ing. Gheorghe BREZEANU care mi-a fcut onoarea s
accepte s fie preedintele comisiei de doctorat. De asemenea, doresc s mulumesc
domnului conf. dr. ing. Mihail Laureniu IVANOVICI pentru toate sfaturile pertinente
i constructive, oferite pe perioada corectrii tezei de doctorat
in s mulumesc n mod special domnului . l. dr. ing. Bogdan IONESCU

pentru sprijinul tiinific i administrativ constant acordat, dar mai ales pentru
contribuia dumnealui n formarea mea ca om. Doresc s mulumesc n mod deosebit
pentru lungile discuii purtate, sfaturile acordate, i mai ales pentru ncrederea pe care
mi-a acordat-o pe toat perioada studiilor. Mai mult, doresc s i mulumesc pentru
sprijinul deosebit acordat pentru pregtirea stagiului meu din Trento i sfaturile
constructive n redactarea acestei lucrri.
Mulumesc n mod deosebit domnului conf. dr. ing. Nicu SEBE deoarece m-a
acceptat n cadrul unui stagiu n Trento, pentru sprijinul constant acordat att
administrativ, ct i tiinific. De asemenea, i mulumesc c a acceptat s ia parte la
susinerea tezei mele. Deosebit recunotin datorez domnului dr. Jasper UIJLINGS
pentru sfaturile i sprijinul tiinific acordat pe toat perioada stagiului meu n Trento.
A dori s mulumesc echipei minunate din cadrul Universitii Trento pentru
sprijinul total: Anca-Livia RADU, Radu VIERIU, Negar ROSTAMZADEH, Mojtaba
Khomami ABADI, Victoria YANULEVSKAYA, Gloria ZEN, Manuel
ZUCCHELLINI i Jacobo STAIANO. De asemenea, doresc s mulumesc domnilor
Alejandro Hector TOSSELI i Hamed REZAZADEGAN pentru discuiile interesante
pe care le-am avut pe perioada stagiului meu la Trento.
Doresc s mulumesc laboratorului LAPI - Laboratorul de Analiza i

Prelucrarea Imaginilor, din Universitatea Politehnica din Bucureti, i astfel tuturor
colegilor din colectivul de cercetare, pentru prietenia artat de-a lungul timpului ct
i pentru ncadrarea preioas acordat pe parcursul formrii mele profesionale. A
dori s mulumesc colegilor mei profesori, Mihai CIUC, Laura FLOREA, Corneliu
i
FLOREA, erban OPRIESCU i Christoph RASCHE pentru ajutorul acordat,

discuiile purtate precum i pentru modelul de conduit artat. De asemenea, le
mulumesc domnilor dr. Horia CUCU i Andi BUZO pentru colaborarea pe care am
avut-o pe perioada competiiei MediaEval 2012.
Mulumesc tuturor colegilor din cadrul Universitii Politehnica Bucureti
pentru sprijinul moral acordat.
A dori, de asemenea, s mulumesc domnilor dr. Klaus SEYERLEHNER, dr.

Peter KNEES, drd. Jan SCHLUTER i dr. Markus SCHEDL, din cadrul Universitii
Johannes Kepler University (JKU), Linz, Austria. Sincere mulumiri doresc s i acord
domnului Prof. dr. Patrick LAMBERT pentru tot sprijinul acordat pe perioada tezei.
Mulumesc n mod special soiei mele Diana, care m-a sprijinit necondiionat
pe toat perioada studiilor doctorale, i care a avut rbdarea s corecteze aceast
lucrare. De asemenea, mi doresc s mulumesc n mod mod deosebit mamei mele
pentru sprijinul permanent acordat i care, ntotdeauna a subliniat importana unei
bune educaii. Nu n ultimul rnd, doresc s mulumesc surorii mele, pentru ajutorul
acordat pe perioada studiilor, i pentru timpul depus pentru corectarea acestei
lucrri.
n ncheiere, a dori s mulumesc colegilor mei, domnii Rzvan
PRUNDEANU, Marius STANCU i Dan DUMITRU, pentru sprijinul i nelegerea
acordat pe toat perioada studiilor.
ii
Lista tabelelor
Tab. 5.1 Comparaie ntre cele mai bune rezultate ................................................... 108
Tab. 5.2 Comparaie ntre complexitatea computaional i lungimea descriptorilor111
Tab. 6.1 Comparaie rezultate cu competiia MediaEval 2012 Tagging Task .......... 121
Tab. 6.2 Performana iniial a descriptorilor selectai ............................................. 122
Tab. 6.3 Comparaie rezultate State-of-the-Art ........................................................ 124
Tab. 6.4 Comparaie rezultate State-of-the-Art ......................................................... 125
Tab. 6.5 Comparaie rezultate State-of-the-Art ........................................................ 127
Tab. 7.1 Top trei performane pentru bazele de date Microsoft i Caltech 101 (MAP).
.................................................................................................................................... 143
Tab. 7.2 Performana medie obinut pe baza de date de test .................................... 147
Tab. 7.3 Performana sistemului pentru diferite ferestre de afisare. ......................... 149
Tab. 7.4 Performana sistemului fr relevance feedback, utiliznd diferite metrici .
.................................................................................................................................... 154
Tab. 7.5 Performana sistemului utiliznd diferite tehnici de normalizare. ............... 155
Tab. 7.6 Comparaie acuratee cu ali algoritmi de relevance feedback. ................... 156
Tab. 7.7 Comparaie acuratee ntre FKRF clasic i FKRF cu GMM global. ........... 157
Tab. 7.8 Comparaie acuratee dintre FKRF clasic i FKRF temporal. ..................... 158
Tab. 8.1 Comparaie cu State-of-the-Art. .................................................................. 166
Tab. 8.2 Performana trsturilor propuse pentru clasificarea genului. ..................... 174
Tab. 8.3 Performana obinut cu diferite strategii de fuziune. ................................. 175
Tab. 8.4 Comparaie cu algoritmii raportai n State-of-The-Art............................... 177
Tab. 8.6 Comparaie cu rezultatele obinute la compeia MediaEval 2012 ............... 182
Tab. 8.4 Comparaie cu algoritmii raportai n State-of-The-Art............................... 186
iii
iv
Lista figurilor
Fig. 1.1 Surse de informaie multimedia........................................................................ 5
Fig. 1.2 Arhitectura de baz a unui sistem de cutare dup coninut multimedia ......... 6
Fig. 2.1 Exemplificare a paradigmei semantice prin utilizarea histogramei de culoare.
...................................................................................................................................... 15
Fig. 2.2 Exemple de perechi de imagini n care paradigma semantic este prezent . 16
Fig. 2.3 Prezentarea procesului de interaciune utilizator-sistem n cadrul algoritmului
de relevance feedback. ................................................................................................. 17
Fig. 2.4 Schema unui sistem clasic de cutare a documentelor multimedia dup
coninut ........................................................................................................................ 18
Fig. 2.6 Exemple de browser 2D (MediaMill) ............................................................. 20
Fig. 2.7 Exemplu de browser cu navigare 3D .............................................................. 20
Fig. 2.8 Ilustraii ale unor sisteme cu browser cu navigare 3D.................................... 21
Fig. 2.9 Schema unui sistem cu fuziune Early Fusion ............................................. 25
Fig. 2.10 Exemplu de normalizare folosind funcii dublu sigmoide............................ 27
Fig. 2.11 Ilustraii ale unor sisteme de late fusion.................................................... 28
Fig. 2.12 Interpretarea graficelor precizie-reamintire .................................................. 33
Fig. 2.13 Interpretarea curbelor ROC .......................................................................... 35
Fig. 2.14 Exemple de imagini din baza de date Image CLEF ..................................... 36
Fig. 2.15 Exemple de imagini din baza de date Image Caltech 101 ............................ 37
Fig. 2.16 Exemple de imagini din baza de date Image Pascal 2007 ............................ 38
Fig. 2.17 Exemple de documente video din baza de date MediaEval 2012 ............... 39
Fig. 3.1 Cubul RGB ..................................................................................................... 42
Fig. 3.2 Planul YCbCr cu y = 0.5. ............................................................................... 43
Fig. 3.3 Spaiul de culoare a familiei HSV. ................................................................. 43
Fig. 3.4 Sistemul de coordonate pentru HMMD.......................................................... 44
Fig. 3.5 Sistemul de coordonate pentru CIE Lab. ....................................................... 45
Fig. 3.6 Spaiul de culoare Color Naming ................................................................... 46
Fig. 3.7 Ilustrare a variaia histogramei n cazul unor modificri minore de scen ..... 47
Fig. 3.8 Exemple de divizri ale spaiului suport al imaginii n vederea calculului de
histograme augmentate ................................................................................................ 49
Fig. 3.9 Schem ilustrativ a reprezentrii prin piramide. ........................................... 50
Fig. 3.10 Exemple de texturi aparinnd bazei de date Vis Tex .................................. 50
Fig. 3.11 Partiii de caracterizare a texturilor n domeniul spectral Fourier ................ 58
Fig. 3.12 Schema de calcul a operatorului LBP.......................................................... 59
Fig. 3.13 Exemple de metode de extragere a punctelor de interes .............................. 63
Fig. 3.14 Procesul de antrenare n cadrul algoritmului Bag of Words ........................ 67
Fig. 3.15 Procesul de clasificare n cadrul algoritmului Bag of Words ....................... 68
Fig. 3.16 Imprirea imaginii iniiale pentru descriptorul Edge Histogram ................. 72
Fig. 3.17 Exemple de ferestrele detectoare de muchii ................................................. 73
Fig. 3.20 Modaliti de mprire a semnalului audio .................................................. 77
Fig. 3.21 Schema general a unui sistem de clasificare de semnale audio. ................. 77
v
Fig. 3.22 Schema general a unui sistem de clasificare de text ................................... 82

Fig. 4.1 Ilustraie a algorimului lui Rocchio ................................................................ 90
Fig. 4.2 Ilustraie a algorimulor de Relevance Feedback cu estimare a importanei
trsturilor .................................................................................................................... 91
Fig. 4.3 Clasificare utiliznd reele SVM .................................................................... 96
Fig. 5.1. Tipuri de vecinti ale unui automat celular .............................................. 102
Fig. 5.2 Vecintatea 3x3 din jurul funciei kernel ..................................................... 103
Fig 5.3 ase funcii kernel propuse pentru descrierea coninutului de textur .......... 104
Fig. 5.4 Exemple de texturi utilizate n experimente ................................................. 105
Fig. 5.5 Performana MAP utiliznd un numr variabil de praguri ........................... 106
Fig. 5.6 Performana MAP utiliznd un numr variabil de scale............................... 106
Fig. 5.7 Performana obinut pentru diverse seturi de funcii utilizate..................... 107
Fig. 5.8 Graficele precizie reamintire pentru cele patru baze de date........................ 108
Fig. 5.9 Rezultatele clasificrii pe bazele Brodatz, UIUC, KTH i Vistex................ 110
Fig. 6.1 Schema general a unei reprezentri Fisher kernel ...................................... 115
Fig. 6.2 Influena numrului de trsturi asupra performanei sistemului ................. 118
Fig. 6.3 Influena aplicrii PCA asupra performanei sistemului .............................. 119
Fig. 6.4 Influena numrului de centroizi GMM asupra performanei sistemului ..... 120
Fig. 6.5 Influena numrului de centroizi GMM asupra performanei sistemului ..... 123
Fig. 7.1 Ilustrare schematic a algoritmului modificat de estimare a relevanei
caracteristicilor. .......................................................................................................... 131
Fig. 7.2 Schema logic a algoritmului modificat de estimare a relevanei
caracteristicilor. .......................................................................................................... 131
Fig. 7.3 Graficele Precizie-Reamintire pentru o sesiune de feedback ....................... 132
Fig. 7.4 Variaia MAP pentru mai multe iteraii de feedback .................................... 133
Fig 7.5 Arhitectura unei reele de clusterizare ierarhic ............................................ 134
Fig. 7.6 Versiunea n pseudocod a algoritmului de Relevance Feedback cu clusterizare
ierarhic...................................................................................................................... 135
Fig. 7.7 Metode de unificare a clusterelor ................................................................. 136
Fig. 7.8 Reprezentare grafic pentru regula arcului ................................................... 137
Fig 7.9 Exemple de imagini din bazele de date utilizate ........................................... 138
Fig 7.10 Variaia MAP n funcie de numrul de clustere ......................................... 139
Fig. 7.11 Variaia MAP n funcie de parametrul d de disimilaritate ........................ 140
Fig. 7.12 Curbele Precizie Reamintire pentru bazele de date Caltech 101 i
Microsoft utiliznd descriptorii de culoare, MPEG7 i Bag of Words (SURF) ........ 141
Fig 7.13 Performana sistemului atunci cnd variem numrul de iteraii de feedback
pe baza de date Caltech 101 si Microsoft (valori MAP) ............................................ 141
Fig. 7.14 Performana descriptorilor pe bazele de date Microsoft si Caltech folosind
diveri descriptori n combinaie cu o gam divers de metrici................................. 142
Fig. 7.15 Acurateea algoritmilor de relevance feedback pentru diveri descriptori i
metrici (valori MAP).................................................................................................. 144
Fig. 7.16 Precizia calculat pe fiecare categorie de film pentru diferii descriptori. . 146
Fig. 7.17 Graficele precizie reamintire pentru diveri descriptori ............................. 147
vi
Fig. 7.18 Grafice Precizie Reaminitire pentru o sesiune de relevance feedback .... 149
Fig. 7.19 Schema logic a algoritmului Relevance Feedback cu Fisher kernel ........ 151
Fig. 7.20 Performana algoritmului FKRF la variaia numrului de centroizi GMM
(valori MAP) .............................................................................................................. 155
Fig. 7.21 Grafice precizie-reamintire pentru metoda propus i algoritmi state-of-the-
art ............................................................................................................................... 156
Fig. 7.22 Performana algoritmului FKRF temporal la variaia numrului de centroizi
GMM.......................................................................................................................... 158
Fig. 8.1 Schema algoritmului propus pentru clasificarea imaginilor otoscopice ....... 163
Fig. 8.2 Exemple de imagini otoscopice utilizate n experimente: prima linie conine
exemple de imagini fr otit, iar linia a doua prezint inflamaii ale urechii medii 163
Fig. 8.3 Acurateea de clasificare. .............................................................................. 164
Fig. 8.4 Precizia medie pentru metodele de fuzionare. .............................................. 165
Fig. 8.5 Exemple de imagini medicale utilizate n experiment .................................. 167
Fig 8.6 Performanele obinute n experimentele de retrieval utiliznd descriptorii
propui........................................................................................................................ 168
Fig. 8.7 Performana algorimilor de clasificare pentru fiecare set de descriptori ...... 169
Fig. 8.8 Schema sistemului propus pentru clasificarea genului documentelor video
web ............................................................................................................................. 172
Fig. 8.9 Rezultatele clasificrii pe fiecare gest utiliznd diferite metode de clasificare:
.................................................................................................................................... 186
vii
viii
Lista abrevierilor
ADL - University of Rochester Activities of Daily Living
ANMRR - Average Normalized Modified Retrieval Rank
ARR - Average Retrieval Rank- ARR
ARF - Austrian Romanian Team
ASR - Automatic Speech Recognition
AVR - Average Rank
BLOB - Binary Large Objects
BoVW - Bag of Visual Words
BoW - Bag of Words
CBMI - Content Based Multimedia Indexing
CCV - Color Coherence Vectors
CHD - Color Histogram Descriptor
CLD - Color Layer Descriptor
CN - Color Naming
CSD - Color Structure Descriptor
DCT - Discrete Cosinus Transform
EHB - E-Health and Bioengineering Conference
ERF - Extremelly Random Forests
EUSIPCO - European Signal Processing Conference
FK - Fisher Kernel
FPR - False Positive Rate
GBT - Gradient Boosted Trees
GIS - Geographic Information System
GLOH - Gradient Location-Orientation Histogram
GMM - Gaussian Mixture Model
GOOD - Good Features to Track
HAC - Hierarhical Agglomerative Clustering
HCRF - Hierarhical Clustering Relevance Feedback
HMM - Hidden Markov Model
HMMD - Hue Minim Maxim Difference
HOF - Histograms of Optical Flow
HOG - Histograms of Oriented Gradients
HSV - Hue Saturation Value
ICCP - International Conference on Intelligent Computer Communication and
Processing
ICMR - International Conference of Multimedia Retrieval
ISSCS - International Symposium on Signals, Circuits and Systems
KTH-TIPS - Textures under varying Illumination, Pose and Scale
LBP - Localy Binary Patterns
LDA - Latent Dirichlet Allocation
LLE - Local Linear Embedding
ix
LPC - Linear Predictive Coefficients

LSP - Line Spectral Pairs
MAP - Mean Average Precision
MFCC - Mel-Frequency Cepstral Coefficients
MMR - Modified Retrieval Rank MRR
MPEG - Moving Picture Experts Group
MSER - Maximally Stable Extremal Regions
NMRR - Normalized Modified Retrieval Rank
NN - Nearest Neaigbor
PASCAL - Pattern Analysis, Statistical Modelling and Computational Learning
PCA - Principal Component Analysis
PHP - Hypertext Preprocesor
PR - Precizie Reamintire (Precision Recall)
PLSA - Probabilistic Latent Semantic Analysis
QBE - Query by Example
RBF - Radial Basis Function
RF - Random Forests
RF - Relevance Feedback
RFE - Relevance Feature Estimation
RGB - Red Green Blue
ROC - Receiver Operating Characteristic
RR - Retrieval Rate
RSJ - Robertson Starck-Jones algorithm
SGBD - Sistem de Gestionare a Bazelor de Date
SIFT - Scale Invariant Feature Transform
SOM - Self Organizing-Map
SPAMEC - Signal Processing and Applied Mathematics for Electronics and
Communications
STIP - Space-Time-Interest-Points
SURF - Speeded Up Robust Feature
SVM - Support Vector Machines
TD-IDF - Term Frequency-InverseDocument Frequency
TPR - True Positive Rate
UIUC - University of Illinois at Urbana-Champaign
UCF - University of Central Florida
ZCR - Zero-Crossing Rate
x
_____________________________________________________________________
Cuprins
_____________________________________________________________________
Pag.
Mulumiri...................................................................................................................... i
Lista tabelelor............................................................................................................. iii
Lista figurilor................................................................................................................v
Lista abrevierilor........................................................................................................ ix
PARTEA 1 .............................................................................................................................. 1
ASPECTE TEORETICE ALE DOMENIULUI DE ANALIZ I CLASIFICARE A

BAZELOR DE DATE MULTIMEDIA ................................................................................. 1
CAPITOLUL 1 ........................................................................................................................ 3
INTRODUCERE ..................................................................................................................... 3
1.1 Prezentarea domeniului tezei de doctorat .................................................................................. 3
1.2 Scopul tezei de doctorat ............................................................................................................. 7
1.3 Coninutul tezei de doctorat ....................................................................................................... 7
CAPITOLUL 2 ...................................................................................................................... 11
CONCEPTUL DE INDEXARE DUP CONINUT ......................................................... 11
2.1 Introducere ............................................................................................................................. 11
2.2 Domenii de aplicabilitate ........................................................................................................ 13
2.3 Problematica sistemelor de cutare dup coninut ................................................................. 14
2.4 Arhitectura unui sistem de indexare multimedia .................................................................... 17

2.4.1 Indexator ............................................................................................................................. 17
2.4.2 Browserul ............................................................................................................................ 19
2.4.3 Retriever .............................................................................................................................. 21
xi
2.5 Metode de fuzionare .............................................................................................................. 24

2.5.1 Metode de tip Early Fusion .............................................................................................. 25
2.5.2 Metode de tip Late Fusion ............................................................................................... 27
2.6 Msurarea performanelor ..................................................................................................... 31

2.6.1 Standardul MPEG 7 .............................................................................................................. 31
2.6.2 Graficul precizie-reamintire ................................................................................................. 32
2.6.3 Ali parametri....................................................................................................................... 34
2.7 Baze de date ........................................................................................................................... 35

2.7.1 Baze de date de imagini....................................................................................................... 36
2.7.2 Baze de date video .............................................................................................................. 38
2.8 Concluzii capitol ...................................................................................................................... 40
CAPITOLUL 3 ...................................................................................................................... 41
METODE CLASICE DE DESCRIERE A CONINUTULUI MULTIMEDIA............... 41
3.1 Descriptori de culoare .............................................................................................................. 41

3.1.1 Spaii de culoare....................................................................................................................... 41
3.1.2 Histograma imaginii ............................................................................................................. 46
3.1.3 Momente de culoare ........................................................................................................... 47
3.1.4 Histograma Color Coherence Vectors .............................................................................. 48
3.1.5 Histograma Fuzzy ................................................................................................................. 48
3.1.6 Histograme augmentate i piramide spaiale...................................................................... 49
3.2 Descriptori de textur ............................................................................................................. 50

3.2.1 Proprietile Tamura ........................................................................................................... 51
3.2.2 Matricea de coocuren ...................................................................................................... 52
3.2.3 Modele Markov Random Fields ....................................................................................... 54
3.2.4 Corelograma ........................................................................................................................ 54
3.2.5 Matricea de Izosegmente .................................................................................................... 54
3.2.6 Calcul n spaiu transformat ................................................................................................ 57
3.2.7 Operatorul Localy Binary Patterns ................................................................................... 58
3.3 Descriptori de form ............................................................................................................... 59

3.3.1 Momentele Hu..................................................................................................................... 60
3.3.2 Momente Zernike ................................................................................................................ 60
3.3.3 Descriptori Fourier de contur ............................................................................................. 61
3.3.4 Aproximare poligonal ........................................................................................................ 61
3.3.5 Histograma de orientare a gradienilor ............................................................................... 62
3.4 Puncte de interes ...................................................................................................................... 62

3.4.1 Introducere ............................................................................................................................... 62
3.4.2 Modelul SIFT ..................................................................................................................... 64
3.4.2 Modelul SURF ................................................................................................................... 65
3.4.3 Modelul Harris .................................................................................................................. 65
3.4.4 Reprezentarea Bag of Visual Words ................................................................................. 66
xii
3.5 Descriptori MPEG 7 ................................................................................................................. 69

3.5.1 Standardul MPEG 7 ............................................................................................................. 69
3.5.2 Descriptori de culoare ......................................................................................................... 69
3.5.3 Descriptori de textur ......................................................................................................... 72
3.5.4 Descriptori de form ........................................................................................................... 73
3.6 Descriptori de micare ............................................................................................................ 74
3.7 Descriptori audio .................................................................................................................... 76
3.8 Descriptori de text .................................................................................................................. 80
3.9 Concluzii ..................................................................................................................................... 84
CAPITOLUL 4 ...................................................................................................................... 87
ALGORITMI DE RELEVANCE FEEDBACK ................................................................... 87
4.1 Conceptul de Relevance Feedback .......................................................................................... 87
4.2 Metode de Relevance Feedback existente .............................................................................. 89

4.2.1 Algoritmi de schimbare a punctului de interogare .................................................................. 89
4.2.2 Algoritmi de estimare a importanei trsturilor .................................................................... 91
4.2.3 Algoritmi statistici .................................................................................................................... 93
4.2.4 Relevance feedback cu algoritmi de clasificare ....................................................................... 95
4.3 Concluzii ..................................................................................................................................... 97
PARTEA II ............................................................................................................................ 99
CONTRIBUII PERSONALE ............................................................................................ 99
CAPITOLUL 5 ................................................................................................................... 101
DESCRIEREA CONINUTULUI DE TEXTUR FOLOSIND AUTOMATE

CELULARE ........................................................................................................................ 101
5.1 Teoria automatelor celulare .................................................................................................... 101
5.2 Descrirerea texturilor utiliznd automate celulare ................................................................. 103
5.3 Rezultate experimentale ....................................................................................................... 105

5.3.1 Alegerea parametrilor algoritmului................................................................................... 105
5.3.2 Comparaie cu State-of-the-art .......................................................................................... 107
5.3.2 Comparaie de complexitate ............................................................................................. 111
5.4 Concluzii ................................................................................................................................... 112
xiii
CAPITOLUL 6 ................................................................................................................... 113
DESCRIEREA CONINUTULUI FOLOSIND REPREZENTAREA FISHER KERNEL

............................................................................................................................................. 113
6.1 Teoria Fisher kernel .............................................................................................................. 113
6.2 Reprezentarea Fisher kernel ................................................................................................. 114
6.3 Problematica modelrii timpului n filme ............................................................................. 116
6.4 Clasificarea automat dup gen a filmelor ............................................................................ 117

6.4.1 Descriere experiment ........................................................................................................ 117
6.4.2 Optimizarea reprezentrii Fisher ....................................................................................... 118
6.4.3 Comparaie cu State-of-the-Art ..................................................................................... 120
6.5 Recunoaterea de aciuni sportive ........................................................................................ 121

6.6 Recunoatere de aciuni cotidiene ........................................................................................ 124

6.7 Concluzii capitol .................................................................................................................... 127
CAPITOLUL 7 ................................................................................................................... 129
METODE DE RELEVANCE FEEDBACK PROPUSE .................................................. 129
7.1 Algoritm propus de Relevance Feedback cu estimare a importanei trsturilor .................. 130
7.1.1 Prezentare algoritm ................................................................................................................ 130
7.3 Rezultate experimentale ............................................................................................................ 132
7.2 Relevance feedback cu clusterizare ierarhic ........................................................................... 133

7.2.2 Rezultate experimentale obinute pe baze de imagini ........................................................... 137
7.2.3 Rezultate experimentale obinute pe baze de documente video........................................... 144
7.3 Aplicarea reprezentrii Fisher kernel n Relevance feedback ................................................... 149

7.3.2 Rezultate experimentale pe baza MediaEval 2012 ................................................................. 152
7.4 Concluzii................................................................................................................................... 159
CAPITOLUL 8 ................................................................................................................... 161
xiv
PARTICULARIZAREA CONCEPTELOR PENTRU DIFERITE PROBLEME DE

APLICAIE ........................................................................................................................ 161
8.1 Catalogarea imaginilor ORL ...................................................................................................... 162

8.1.1 Metoda propus ..................................................................................................................... 162
8.1.2 Descrierea Experimentului ..................................................................................................... 163
8.1.3 Concluzii .................................................................................................................................. 166
8.2 Catalogarea imaginilor microscopice ........................................................................................ 166

8.2.1 Descrierea Experimentului ..................................................................................................... 166
8.2.2 Experiment de cutare ........................................................................................................... 167
8.2.3 Experiment de clasificare........................................................................................................ 168
7.2.4 Concluzii .................................................................................................................................. 169
8.3 Catalogarea dup gen a documentelor video ........................................................................... 169

8.3.1 Metod propus ..................................................................................................................... 171
8.3.2 Descriptori multimodali .......................................................................................................... 172
8.3.3 Rezultate Experimentale ........................................................................................................ 174
8.3.4 Concluzii .................................................................................................................................. 177
8.4 Catalogarea coninutului de violen n filme ........................................................................... 177

8.4.1 Metoda propus ..................................................................................................................... 178
8.4.2 Detecia de concepte .............................................................................................................. 179
8.4.3 Rezultate experimentale ........................................................................................................ 180
8.4.3 Concluzii .................................................................................................................................. 183
8.5 Catalogarea poziiilor statice ale minii .................................................................................... 183

8.5.1 Metoda propus ..................................................................................................................... 184
8.5.2 Rezultate experimentale ........................................................................................................ 185
8.5.3 Concluzii .................................................................................................................................. 186
CAPITOLUL 9 ................................................................................................................... 187
CONCLUZII........................................................................................................................ 187
9.1 Rezultate obinute .................................................................................................................. 187
9.2 Contribuii originale ................................................................................................................ 192
9.3 Lista lucrrilor originale ............................................................................................................ 195

Articole publicate n reviste de specialitate .................................................................................... 195
Competiii ........................................................................................................................................ 195
Rapoarte de cercetare ..................................................................................................................... 196
Articole publicate n conferine internaionale ............................................................................... 196
Cri ................................................................................................................................................. 198
9.4 Perspective de dezvoltare ulterioar ........................................................................................ 198
CAPITOLUL 10 ................................................................................................................ 199
xv
BIBLIOGRAFIE ................................................................................................................ 199
xvi
PARTEA 1
ASPECTE TEORETICE ALE

DOMENIULUI DE ANALIZ I
CLASIFICARE A BAZELOR DE
DATE MULTIMEDIA
1
2
Capitolul 1
Introducere
n ultimul deceniu, volumul de informaie multimedia a manifestat o cretere
exponenial. Mrirea capacitilor de stocare i procesare, ct i rspndirea masiv a
tehnologiei portabile au avut ca efect o explozie a coninutului multimedia. Practic,
tehnologia multimedia face acum parte din viaa cotidian a oricui. n 2012, mai mult de
72 de ore de coninut video au fost ncrcate n fiecare minut pe Youtube. Ca i volum de
redare video, peste 500 de ani de filme sunt vizualizate n fiecare zi pe Facebook i peste
700 de documente video sunt rulate n fiecare minut pe Twitter. Aadar, principala
provocare pentru sistemele multmedia nu este capabilitatea acestora de a manipula
volume impresionante de date, ci aceea de a identifica i selecta numai informaie
relevant pentru utilizatori. Odat cu creterea volumului de date multimedia, au nceput
s apar probleme n gestionarea i manipularea datelor. Uneori, chiar i regsirea unui
anumit fiier multimedia pe calculatorul personal poate fi o operaie comparat cu
cutarea acului n carul cu fn.
n aceast lucrare mi propun s analizez modaliti de indexare i cutare n baze
de date multimedia. Domeniul indexrii dup coninut a obiectelor multimedia i
propune rezolvarea problemei de gsire a unor documente similare ntr-o baz de date
multimedia, utiliznd ca i elemente de cutare componentele descriptive: imagini / cadre
(descrierea componentelor de culoare, textur, a punctelor cheie i a formelor obiectelor
componente), sunet, text (subtitrri extrase prin tehnici de recunoatere automat a
vorbirii), ritm (pentru documente video / sunet), metadate etc.
1.1 Prezentarea domeniului tezei de doctorat

n prezent dinamica partajrii datelor pe Internet este una copleitoare, aceasta
realizndu-se practic n timp real de pe orice terminal multimedia, att mobil (de
exemplu telefonul mobil) ct i fix. Prin simpla apsare a unui buton, o nregistrare video
sau imagine poate fi ncrcat imediat on-line. Principala problem pe care o cauzeaz
acest volum impresionant de date este cea a cutrii de informaie relevant. Astfel, a fost
introdus termenul de indexare a datelor multimedia. Conceptul de indexare este definit ca
fiind procesul de adnotare a documentelor dintr-o baz de date, prin adugarea de
informaii suplimentare, numite metadate. n funcie de modul de generare a acestora,
3
procesul de adnotare a datelor poate fi clasificat n dou categorii principale: adnotarea

manual i cea automat.
Gradul de complexitate al adnotrii este direct proporional cu nivelul de detaliu
semantic i structural dorit pentru accesarea datelor. Spre exemplu, documentele pot fi
adnotate att cu etichete generale, care s pun n eviden genul sau subcategoria
documentelor, sau pot fi create chiar i rezumate semantice ale acestora. De asemenea,
cutarea de coninut multimedia trebuie efectuat att la nivel de cadru / secven / scen,
ct i ct i la nivel global al documentului. n prezent, o mare parte din cantitatea de
informaie existent este adnotat n mod manual. Astfel, diferite platforme, precum
YouTube, Dailymotion, Blip.tv, Google, Youtube utilizeaz metadate completate manual
de ctre utilizatori. Principala problem este c acestea sunt dificil de completat i de
foarte multe ori sunt incorect marcate i ineficiente. Mai mult, datorit modului de
interpretare proprie a coninutului, acestea conin un nivel ridicat de zgomot. De
asemenea, procesul de adnotare manual este unul costisitor sau nerealizabil datorit
constrngerilor de timp a aplicaiilor sau a numrului de documente implicate. Din aceste
motive adnotarea automat a documentelor multimedia reprezint o direcie de cercetare
fundamental.
Pentru indexarea coninutului multimedia se pot identifica trei surse majore de
surse de informaie: informaia vizual (culoare, textur, form, puncte de interes i
micare), informaia audio (coninutul sonor: sunete, zgomot, vorbire, muzic
ambiental) i informaia textual (subtitrri sau metadate extrase). n Figura 1.1 sunt
prezentate principalele surse de informaie care pot fi extrase dintr-un document
multimedia.
Culoarea reprezint una din principalele trsturi de descriere a informaiei
multimedia. Aceasta ne permite recunoaterea proprietilor fizice ale obiectelor ce ne
nconjoar, precum i interacia cu acestea prin senzaiile de culoare ce ne sunt transmise.
Majoritatea metodelor de descriere se bazeaz pe tehnici de histogram: histogram
normal, augmentat, netezit, ponderat, fuzzy, utiliznd diverse spaii de culoare:
grayscale, RGB, HSV, Lab, HMMD, YcbCr etc. Textura este o alt trstur important
care caracterizeaz proprietile vizuale fundamentale ale suprafeelor obiectelor
(asperitate, uniformitate, variabilitate, direcionalitate, regularitate), supuse percepiei
directe a ochiului uman ca o funcie de variaie spaial a intensitii pixelilor din
imagine. Metodele de extragere a trsturilor texturilor utilizeaz parametri statistici ca:
matricea de coocuren (parametri Haralick), corelogram, autocorelogram, matricea de
izosegmente (parametri Gallaway, Chu i Dasarathy), msuri de entropie, analiz fractal
i metode auto-regresive. Forma, n metodele tradiionale, este descris de ctre diveri
parametri de aspect: arie, perimetru, raze, anvelope, skeletron, momente statistice
mpreun cu invarianii Hu, semntura formei, descriptori Fourier de contur i
transformata Hough. Punctele de interes reprezint regiuni bine definite din spaiul
4
imaginii, care au o valoare descriptiv ridicat. Cei mai importani algoritmi de descriere
i extragere a punctelor cheie sunt: SURF, SIFT, GIST, FAST, Harris etc.
O alt component important pentru descrierea coninutului vizual este evoluia
temporal a informaiei vizuale, mai precis detecia micrii din cadrul documentelor
video. Analiza micrii se poate efectua att la nivel global, pentru recunoaterea micrii
camerei video, detecia activitii de micare, ct i local, prin analiza micrii obiectelor
din scen.
Fig. 1.1 Surse de informaie multimedia (surs imagine platform YouTube1).
Canalul audio reprezint o alt surs important de informaii relative la

coninutul datelor multimedia. Aceasta se refer la caracterizarea informaiei sonore pe
care documentul multimedia l conine. Sunetul poate fi corelat cu informaia vizual din
cadrul documentului (ex: detecia violenei din filme), sau poate fi prelucrat n mod
independent (ex: detecia genului unui document video / audio). De obicei, sunt studiate
analiza i identificarea vorbirii, a zgomotului i a efectelor sonore sau analiza
coninutului muzical.
Pentru documentele video, un concept fundamental este cel al micrii. Noiunea
de micare este definit n contextul secvenelor de imagini, numite i imagini n micare.
O secven de imagini presupune o evoluie temporal a coninutului unei imagini
(informaie spaio-temporal; n cazul n care se adaug i informaie audio obinem ceea
ce numim video - informaie audio-vizual). Extragerea informaiei de micare are ca
scop localizarea acelor regiuni de pixeli din imagine n care survin schimbri n timp, de
regul de la un cadru la altul.
1
http://www.youtube.com
5
ns principala component de descriere a coninutului multimedia o constituie

textul. Cele mai importante sisteme existente de cutare multimedia se bazeaz pe
descriptori textuali, avantajul acestora fiind acela c ofer un nivel de descriere semantic
a coninutului foarte apropiat de nivelul de percepie uman. Dintre metodele cele mai
frecvent folosite putem enumera reprezentarea de tip Term FrequencyInverse Document
Frequency (TFIDF) i Bag-of-Words (B-o-W).
Totui, datorit puterii discriminatorii limitate a descriptorilor, utilizarea acestor
trsturi nu poate rezolva ntotdeauna problema indexrii, de multe ori fiind nevoie de
ajutor din partea utilizatorului. Astfel, o metod utilizat este cea de relevance feedback.
Mai precis, utilizatorul va selecta documentele ca fiind relevante sau nerelevante
(corespund sau nu cerererii de cutare), dup care se realizeaz o rafinare a rezultatelor i
o nou reantrenare a sistemului. n urma acestui proces, sistemul va returna un set
mbuntit de documente relevante.
O alt metod pentru mbuntirea performaelor este utilizarea de clasificatori.
Clasificarea datelor reprezint un proces prin care unui descriptor i se atribuie una sau
mai multe etichete. Iniial, are loc o etap care se numete i etap de nvare sau de
antrenare, n care un algoritm de clasificare construiete un model matematic al
conceptelor ce trebuie nvate. Apoi, datele vor fi clasificate n funcie de modelul creeat
anterior.
Fig. 1.2 Arhitectura de baz a unui sistem de cutare dup coninut multimedia.
6
1.2 Scopul tezei de doctorat

Obiectivul principal al acestei lucrri este propunerea de soluii n vederea optimizrii
procesului de indexare automat a datelor multimedia. n cadrul Figurii 1.2 este
prezentat arhitectura de baz a unui sistem multimedia, alturi de principalele contribuii
originale realizate n intervalul tezei de doctorat.
Prima component este interfaa utilizator-calculator, care va permite
utilizatorului s localizeze informaiile dorite, pe baza unei cereri de cutare. Aceasta
poate s permit ca cererea s fie realizat ntr-un mod ct mai natural, la ndemna
oricrui utilizator. Totui, utilizatorul poate s interacioneze cu sistemul nu numai pentru
interogare, ci i pentru antrenarea acestuia, proces cunoscut sub denumirea de relevance
feedback. Acesta reprezint un mecanism interactiv de nvaare n timp real, prin
utilizarea sugestiilor oferite de utilizatorii aplicaiei. n cadrul aceste lucrri mi propun s
creez mecanisme de nvare rapide i eficiente care pot fi integrate n interaciunea
utilizator-calculator. Aceste metode vor fi utilizate att n scopul mbuntirii
performanelor de indexare a bazelor de date de imagini, ct i a celor video.
Un alt concept important pentru cutarea de informaiei multimedia este cel de
definire a unui sistem de similaritate dintre date i descriptorii afereni (indexator).
Practic identificarea rezultatelor cutrii se realizeaz prin localizarea datelor ce sunt
similare pn la un anumit punct cu interogarea efectuat. Prezenta lucrare va expune
diferite metode de evaluare i fuziune a similaritii dintre diferite documente multimedia
i aplicaii ale acestora pentru probleme individuale de indexare.
ns cea mai comun metod de partiionare a datelor este reprezentat de
utilizarea algoritmilor de clasificare automat. Acetia vizeaz mprirea automat a
datelor prin utilizarea de tehnici supervizate i nesupervizate. n cadrul aceste lucrri voi
utiliza diferite metode de clasificare pentru rezolvarea anumitor probleme specifice, ca de
exemplu: clasificarea de imagini medicale, detecia automat a genului, a aciunilor
sportive sau cotidiene, detecia violenei n cadrul documentelor video sau a gesturilor
minii.
Nu n ultimul rnd, cea mai important component a unui sistem multimedia,
este reprezentat de modul de extragere automat a trsturilor datelor. n cadrul prezentei
lucrri, voi propune sau utiliza un set de descriptori vizuali, de micare, audio i text.
Algoritmii propui vor fi utilizai pentru rezolvarea unor probleme de interes, ca
indexarea automat a bazelor de date de imagini (naturale, de textur, de form sau
medicale) sau video (prin utilizarea de trsturi multimodale: vizuali, audio i text).
1.3 Coninutul tezei de doctorat

Lucrarea este structurat n opt capitole dup cum voi explica n continuare.
7
n Capitolul 2 intitulat Conceptul de indexare dup coninut este prezentat

arhitectura clasic a unui sistem de indexare dup coninut. n prima parte este detaliat
problematica indexrii datelor multimedia i sunt prezentate problemele i provocrile
existente n domeniu. n acest scop, am efectuat o trecere n revist a metodelor i
tehnicilor folosite n sistemele actuale de indexare a imaginilor (CBIR), a sunetului
(CBAR), a documentelor video (CBVR) precum i a documentelor text. De asemenea,
sunt prezentate metodele de fuziune a informaiei provenite din cadrul acestor sisteme.
Urmeaz o detaliere a fiecrei componente a unui sistem de indexare dup coninut:
retriever, indexator i browser. n cadrul componentei de retriever, s e prezint metricile
utilizate de ctre algoritmi pentru calcularea similaritii sau disimilaritii dintre
documente. n final, sunt prezentate metode de evaluare i msurare a performanelor
algoritmilor de indexare. Mai mult, sunt trecute n revist bazele de date standard sau
competiiile internaionale care pot fi folosite pentru compararea metodelor de indexare
multimedia.
n cadrul Capitolului 3, denumit Metode clasice de descriere a coninutului
multimedia sunt prezentate diverse metode i algoritmi multimedia care vor fi ulterior
folosite pentru dezvoltarea contribuiilor proprii. Prima parte este dedicat analizei
trsturilor vizuale: informaia de culoare, textur, form i puncte de interes. Mai mult, sunt
trecute n revist principalele trsturi vizuale propuse n cadrul standardului MPEG 7. n a
doua parte sunt expuse metodele de descriere i analiz a micrii, informaiei audio i
textuale.
n Capitolul 4, intitulat Algoritmi de relevance feedback se prezint cteva
consideraii generale privind algoritmii care proceseaz automat feedback-ul
utilizatorului pentru mbuntirea performanelor sistemelor de indexare multimedia.
Astfel, sunt trecute n revist aspecte importante legate de modalitile de colectare ale
feedback-ului i clasificri generale ale algoritmilor prezentai n literatur. Apoi, n a
doua partea a capitolului sunt prezentai n detaliu diferii algoritmi de relevance
feedback: algoritmi ce utilizeaz mutarea punctului de interogare, algoritmi ce modific
importana trsturilor, metode de relevance feedback cu algoritmi statistici i sisteme de
relevance feedback care utilizeaz algoritmi de clasificare.
Capitolul 5, intitulat Dezvoltarea coninutului de textur folosind automate
celulare, conine o prim propunere original pentru un algoritm propus pentru descrierea
i clasificarea imaginilor de textur. Acesta este inspirat de ctre teoria automatelor
celulare. Performana descriptorului a fost validat pe o variat gam de baze de date de
textur, fiind n acelai timp comparat cu diferite abordri clasice existente n literatur.
Mai mult, algoritmul va fi testat att n contextul unui sistem de clasificare ct i din
perspectiva unui sistem de cutare a imaginilor dup coninut. Algoritmul propus se
evideniaz att prin complexitate redus de calcul, simplitate de implementare, ct i
prin rezultate similare sau mai bune dect cele ale algoritmilor clasici de descriere a
texturii.
8
n Capitolul 6, denumit Descrierea coninutului folosind reprezentarea Fisher

kernel, propune o nou metod pentru capturarea variaiei temporale n filme, prin
utilizarea reprezentrii Fisher. Fa de majoritatea algoritmilor existeni care se bazeaz
pe utilizarea unei reprezentri pentru toat secvena video, noiunea temporal fiind astfel
pierdut, metoda Fisher agreg vectori de dimensiuni fixe ntr-o reprezentare de lungime
constant, dar care pstreaz ncorporat informaia temporal. Metoda propus pentru
modelarea variaiei temporale are un caracter foarte general, fiind testat pe o varietate de
baze de date de referin: MediaEval 2012 (pentru clasificarea genului video), UCF Sport
50 (clasificare de activiti sportive) i ADL (pentru recunoatere de fapte cotidiene). Mai
mult, metoda a fost analizat pe o gam larg de trsturi, de la descriptori clasici audio,
la trsturi clasice vizuale i de micare, pn la trsturi de flux optic extrase pe
componentele corpului uman. n toate experimentele am obinut rezultate mai bune sau
asemntoare cu cele mai bune metode existente n literatur.
n Capitolul 7, intitulat Metode de relevance feedback propuse sunt prezentate o
serie de algoritmi de relevance feedback propuse. Pentru nceput, voi prezenta un
algoritm de relevance feedback pentru mbuntirea cutrii n cadrul bazelor de date de
imagini. Acesta combin o metod nou de calcul a importanei trsturilor mpreun cu
o variant optimal de schimbare a punctului de interogare. Urmtorul algoritm de
relevance feedback utilizeaz o structur ierarhic arborescent aglomerativ. Aceast
metod se evideniaz att prin vitez crescut de indexare, ct i prin rezultate mai bune
fa de algoritmii clasici de relevance feedback din literatur. Mai mult, algoritmul
propus poate fi implementat att n contextul bazelor de date video ct i a celor de
imagini, fiind testat pe o gam variat de descriptori. n ultima parte, va fi prezentat o
metod original de relevance feedback propus n contextul bazelor de date video.
Algoritmul propus utilizeaz teoria Fisher kernel i va fi testat pe o baz de date de
dimensiuni mari (MediaEval 2012) cu o gam larg de descriptori multimodali (vizuali,
audio i text). Experimentele vor demonstra c metoda propus mbuntete
performana de indexare, surclasnd alte metode existente n literatur.
Capitolul 8, denumit Particularizarea conceptelor pentru diferite domenii de
aplicaie este structurat n dou seciuni. Aceast parte conine diferite analize i soluii
pentru anumite probleme de interes de clasificare multimedia. n prima seciune vor fi
prezentate metode testate pe dou baze de date medicale: o prim baz de date de imagini
otoscopice pentru detecia otitei i o baz de date de celule canceroase sangvine canine,
pentru care vom efectua un studiu comparativ asupra mai multor descriptori i
clasificatori state-of-the-art. n cadrul celei de-a doua pri voi prezenta un set de metode
i sisteme pentru indexarea coninutului multimedia pentru diferite aplicaii: detecia
automat a genului unui film, detecia violenei n filme i detecia gesturilor minii.
Teza se ncheie cu Capitolul 9 care este dedicat prezentrii concluziilor finale care
se desprind din aspectele teoretice i practice ale cercetrilor efectuate i care sintetizeaz
contribuiile personale aduse n aceast lucrare. De asemenea, sunt trecute n revist lista
9
publicaiilor i a contribuiilor realizate n perioada studiilor doctorale. n final, sunt

prezentate perspectivele viitoare de cercetare.
10
Capitolul 2
Conceptul de indexare dup coninut

2.1 Introducere
Utilizarea documentelor multimedia face parte din viaa cotidian a oricui. Un exemplu
banal este influena televiziunii sau a jocurilor pe calculator n societatea de astzi. Deci,
cele mai frecvente i simple ntrebuinri ale adunrii, transmisiei i afirii de
documente multimedia sunt recrearea, distracia i crearea de reelele sociale (ex: gsire
imagini asemntoare pentru persoane diferite). Cea mai mare reea de socializare,
Facebook, are mai mult de 1,2 miliarde de utilizatori activi, dintre care cel puin
jumtate intr n aplicaie sptamnal, iar numrul de minute petrecute pe site lunar
atinge 700 de miliarde de minute. Facebook a devenit un site global, este disponibil n
peste 70 de limbi, iar 72% din utilizatorii Facebook sunt din exteriorul SUA. De
asemenea, fotografia este un domeniu care a luat amploare exponenial n ultimii 20 de
ani, odat cu apariia camerelor digitale i a internetului. Galeriile de art online, ct i
imaginile cu vedete / sportivi / artiti, sunt de asemenea un alt exemplu de utilizare a
imaginilor pe internet. Flickr, Picassa, Google Image sunt denumiri familiare aproape
fiecrui utilizator obinuit de internet. Alturi de ntrebuinarea clasic a imaginilor,
exist numeroase domenii profesionale, cu diverse constrngeri, care necesit diverse
tehnici de optimizare [1].
Abordarea clasic, utilizat de primele sisteme de cutare n bazele de date
multimedia, se bazeaz pe adnotarea fiecrui fiier cu metadate. ns acestea sunt dificil
de completat i de foarte multe ori ineficiente sau irelevante pentru conceptul adnotat.
Din acest motiv, a aprut necesitatea dezvoltrii unor sisteme n care documentele
multimedia s poat fi descrise automat, pe baza coninutului acestora. Primele sisteme
de cutare dup coninut au fost cele de indexare de imagini, denumite i sisteme de
cutare a imaginilor dup coninut (CBIR - content based image retrieval systems),
alturi de cele de indexare a documentelor text (text retrieval systems - TRS).
n anii 80 au aprut primele publicaii n care se discut despre descrierea
coninutului multimedia (Ballard i Brown 1982 [2], Levine1985, Haralick i Shapiro
1993 [3]), n timp ce primele sisteme de cutare a coninutului media QBIC (Query By
Image Content) [4] au fost create abia la mijlocul anilor 90: Flickner n 1995 [4] i
Virage Bach n 1996 [5]. Iniial, sistemele multimedia au fost utilizate n domenii
specifice: pentru stocarea i regsirea de date detaliate despre pacienti (ex: radiografii
11
pentru diagnostic i determinarea evoluiei strii pacientului), nregistrarea

componentelor de proiectare, nregistrare hri din satelit (GIS), aplicaii de securitate
(amprente, recunoatere de fee, nregistrri video etc). n ultimii 10 ani, evoluia
tehnologic a dispozitivelor de achiziie i prelucrare a datelor (terminale mobile, sisteme
de calcul) ct i a infrastructurii de transmisie de date au dus la creterea exponenial a
volumului de date multimedia, prin facilitarea stocrii i prelucrrii acestuia. Informaiile
multimedia ocup un loc important din datele tranzacionate pe internet, coninutul video
online reprezentnd n 2006 un procent de 26% din volumul total al traficului de date
(sursa Cisco Systems). n acest sens, n ultimii ani au fost dezvoltate diferite sisteme de
indexare a documentelor audio i a documentelor video (content based video and audio
retrieval systems: CBVR i CBAR).
n prezent, volumul i dimensiunea internetului a devenit uria. Din acest motiv,
cutarea i selecia informaiei relevante ocup un loc foarte important. Spre exemplu, n
2012, Google a indexat un numr de 50 de miliarde de pagini web i peste 5 triliarde de
cutri pe zi (sursa: http://www.statisticbrain.com).
O prim funcionalitate pe care un sistem de indexare trebuie s l conin este
funcia de interogare. Prin intermediul acestei funcii, utilizatorul are acces direct la
datele din baz. n funcie de tipul datelor, poate fi necesar o adoptare a unei strategii
complexe. Spre exemplu, un sistem de cutare dup coninut poate fi interogat dup:
metadate ajuttoare;
prezena unei anumite combinaii de culoare, textur, form;
prezena unui obiect sau a unui aranjament specific de obiecte (ex: mai multe obiecte
aezate ntr-o anumit form) ;
prezena unei persoane/ locaii/ eveniment (ex: 1 Decembrie parad militar);
emoii subiective (ex: bucurie, suprare);
prezena unei anumite coloane sonore sau a unui dialog pe o anumit tem.
Eakins a clasificat sistemele multimedia, n funcie de gradul de abstractizare al
interogrii, n trei nivele majore [6]:
nivelul 1: folosete descriptori primitivi (de nivel sczut) precum culoarea, textura,
forma, distribuia spaial a elementelor unor imagini, puncte cheie, trsturi
elementare ale coninutului audio etc.
nivelul 2: cutarea unor documente care conin anumite obiecte (aa numita tehnic
de subquery). Poate fi mprit n dou tipuri de interogri:
- cutare a unor obiecte de un anumit tip (ex: documente cu maini, animale etc);
- cutare a unor obiecte anume (ex: documente cu turnul din Pisa).
nivelul 3: cutarea se face dup termeni abstraci, sistemele avnd nevoie de putere
de procesare considerabil i au rolul de interpretare i nelegere a scenelor din
imagini.
12
Acest nivel poate conine la rndul lui mai multe tipuri de interogri:
- regsirea unor evenimente i tipuri de activiti (ex: cutare documente n care se
joac hora);
- cutarea de imagini care conin emoii sau semnificaii religioase deosebite.
2.2 Domenii de aplicabilitate

Medicina i profesiile asociate utilizeaz la scar larg imaginile n procesul de
diagnosticare i prevenire, utiliznd o gam variat de aparate imagistice: raze X,
ultrasunete etc. Sistemele CBIR sunt utilizate n diagnosticare i monitorizare n domenii
ca oncologie, ortopedie, medicin intern, neurologie i radiologie. Creterea foarte mare
a numrului de dispozitive medicale care genereaz un numr mare de imagini per
pacient, a dus la nevoia de creare de faciliti pentru stocarea i cutarea rapid a fiei
pacientului. Exist ri n care legislaia prevede ca fia pacientului s fie stocat pe toat
perioada vieii acestuia, iar n unele cazuri chiar i dup moartea acestuia. Acest lucru
inseamn c pe o perioad de cteva zeci de ani trebuie stocate un numr semnificativ de
imagini sau documente video i text ale pacientului. De asemeni, aceste date pot fi
utilizate pentru studii tiinifice: evoluaia bolilor pe diverse perioade de timp, predicie
de diagnostic, generare de statistici privind evoluia anumitor afeciuni, vizualizarea unor
forme ascunse n cadrul imaginii (pseudocolorare, schimbare de contrast) etc.
Moda i design Imaginile sunt foarte importante n creaiile de mod i n
designul industrial. Vizualizarea diverselor pri componente sunt eseniale n procesul de
creaie, dar n acelai timp, observarea creaiilor deja existente cu elemente asemntoare.
Tehnici de modelare 2D i 3D sunt utilizate pentru vizualizarea noilor produse n
perioada de proiectare i compararea acestora cu imagini deja existente.
Arhitectura reprezint un alt domeniu cu utilizare intensiv a imaginilor.
Fotografiile sunt folosite n arhitectur pentru a nregistra interiorul i exteriorul
cldirilor, dar i n diverse scopuri: publicitate, cutare de modele .a.m.d. n inginerie,
sau pentru proiectare, utiliznd tehnologiile de proiectare CAD 2D i 3D.
Securitatea i aplicaiile militare au jucat cel mai important rol n cercetare n
ultima sut de ani. Principala aplicaie a cutarii dup coninut este detecia i
recunoaterea de fee. Exist numeroase aplicaii care creeaz fee ale unor suspeci
bazate pe descrieri ale martorilor, dup care se genereaz anumite modele pe baza crora
se efectueaz o cutare n baza de date. Alte aplicaii sunt reprezentate de cele biometrice
(recunoatere de amprente i iris, dispozitive unice de identificare pentru utilizatori),
detecia micarii prin intermediul documentelor video s.a.m.d.
Automatica utilizeaz sistemele de indexare dup coninut pentru clasificarea i
controlul automat al calitii diferitelor produse pentru diverse domenii economice. Un
13
exemplu concret este reprezentat de fotografierea / filmarea produselor ce trec pe band

rulant, iar acestea sunt controlate automat pentru verificarea calitii.
Alte domenii importante de utilizare a sistemelor de cutare dup coninut sunt:
arheologia, robotica, proprietatea intelectual, cultura, educaia i lista poate continua cu
uurin.
2.3 Problematica sistemelor de cutare dup coninut

Sistemele de cutare a imaginilor dup coninut se deosebesc de sistemele clasice de
stocare prin tehnica nou de indexare i interogare a sistemului denumit interogare dup
exemplu (query by example - QBE) [4]. QBE este o tehnic de interogare prin care
utilizatorul propune sistemului un model ca exemplu de cutare, iar sistemul va returna
documentele asemntoare cu interogarea aleas. Spre exemplu, pentru un sistem de
cutare de imagini, exist mai multe tehnici de interogare posibile:
- utilizatorul poate efectua o interogare dup un set de cuvinte cheie, apoi selecteaz un
document care va fi folosit ca i model de interogare;
- userul deseneaz o aproximare a imaginii cutate utiliznd pete de culoare i exemple
de texturi;
- se ncarc o imagine de pe calculatorul personal.
Aceast tehnic are rolul de a elimina dificultile care apar n descrierea imaginii
prin utilizarea cuvintelor cheie. Query by example a fost utilizat pentru prima dat n
(QBIC) [4]. Algoritmul folosete criteriul similaritii i utilizeaz caracteristicile de
nivel sczut (low level) ca forma, culoarea i textura n recunoaterea de imagini
asemntoare. Sistemele ca Virage [7] i Excalibur [8] ofer utilizatorului posibilitatea de
alegere a criteriului optim de interogare prin alocare de ponderi pentru fiecare tip de
descriptor. Alte sisteme (Smith i Chang [9]) permit definirea de regiuni i specificarea
relaiilor dorite ntre regiuni. Odat ce msurile de similaritate sunt determinate,
utilizatorul ofer exemplul bazei de date, iar sistemul va selecta criteriul ales i va afia
primele imagini gsite (de obicei ntre 10-30 de imagini). Acest model este reprezentativ
pentru simplitatea lui, deoarece reprezint o extensie natural a problemei de gsire a
similaritii vectorilor n spaiul multidimensional. Exist ns mai multe neajunsuri pe
care le ofer aceast metod. Prima problem este complexitatea gsirii unui model
reprezentativ pentru imaginea cutat. De foarte multe ori este dificil de obinut imaginea
dorit pentru a putea fi oferit sistemului, iar uneltele puse la dispoziia utilizatorului
pentru a putea desena modelul dorit, l pot pune ntr-o mare dificultate, deoarece nu toi
au valene artistice. O alt problem este c o schem este o reprezentare mult
simplificat a imaginii, i uneori este insuficient pentru regsirea imaginilor complexe.
14
(A) (B) (C)

Fig. 2.1 Exemplificare a paradigmei semantice prin utilizarea histogramei de culoare.
Imaginea din centru (B) este o versiune mai luminoasa a imaginii din stnga (A) dar
seturi diferite de caracteristici clasifica imaginile A i B ca fiind mai aproape de C decat
distanta dintre ele: dist(A, B) = 0.20, dist(A, C) =0.25, dist(B, C) =0.05.
O alt metod popular de cutare o reprezint tehnica de reranking. Utilizatorul

genereaz o cutare prin utilizarea de metadate 2 . Sistemul returneaz o list de
documente care conine cuvntul cutat, dup care utilizatorul selecteaz un numr de
documente care sunt relevante pentru cutarea curent. Sistemul va genera o nou
cutare, care va utiliza informaiile pe care le conin documentele selectate (vizuale /
audio / text).
Oamenii sunt capabili s interpreteze documentele multimedia la nivele diferite:
att caracteristici de nivel sczut (culoare, textur, forme, viteza de micare, intensitatea
sonor) ct i cele de nivel semantic ridicat (obiecte abstracte, evenimente). Spre
deosebire de oameni, sistemele de indexare sunt capabile doar de a interpreta descriptorii
de nivel sczut. De cele mai multe ori, utilizatorul dorete s interogheze baza de date i
la nivel semantic, i de aici apar probleme diverse de reprezentare a informaiei. Aceast
problem este cunoscut ca i paradigm semantic (semantic gap) [10]. Paradigma
semantic caracterizeaz diferena dintre dou descrieri ale unui obiect, utiliznd diferite
reprezentri lingvistice i simbolice. n computer vision conceptul este relevant atunci
cnd ncercm s reprezentm diferite scene utiliznd o reprezentare computaional.
Interpretarea semantic a unei imagini are, de foarte multe ori, o foarte mic legtur cu
corelaia statistic a valorilor pixelilor. Un exemplu explicativ l gsim n Figur 2.1
Pentru descrierea acestor imagini am utilizat un descriptor clasic, i anume histograma
de culoare. Dei imaginile A i B au un coninut identic, imaginile B i C sunt mai
similare deoarece n spaiul descriptive al imaginilor, distana dintre cele dou trsturi
este mai mic.
2
metadatele sunt definite uzual ca fiind date despre date, sau altfel spus, date care descriu alte date, de
orice fel i de orice tip. Cu alte cuvinte, metadatele ofer informaii suplimentare la o serie de date. De
exemplu, o imagine, pe lng coninutul acesteia propriu-zis poate conine metadate ce specific descrierea
coninutului acestuia.
15
Un alt exemplu relevant de semantic gap l gasim n Figura 2.2. Imaginile au cu

aceeai form, culoare i textur, ns nelesul semantic este unul complet diferit.
Fig. 2.2 Exemple de perechi de imagini n care paradigma semantic este prezent.
Perechile de imagini au culoare, textur i form asemanatoare, dar sensuri diferite.3
Tot n [10] este definit o a doua problem, i anume paradigma senzorial.

Aceasta reprezint discrepana care exist ntre informaiile prezente n scena real 3D i
informaiile furnizate de imagine, imagine ce reprezint o proiecie discret 2D obinut
n momentul nregistrrii scenei.
Una din tehnicile utilizate n nlturarea acestor probleme este reprezentat de
clasa de algoritmi de relevance feedback. Ideea principal din spatele acestui concept
const n introducerea utilizatorului ca parte integrant a sistemului. Acesta va ajuta la
antrenarea sistemului i, deci, la imbuntirea performanelor de cutare. Dup ce
utilizatorul definete modelul de cutare, sistemul afieaz un set de documente candidat.
Utilizatorul poate marca documentele relevante i irelevante, dup care sistemul se va
reantrena, astfel nct noua list de documente s reflecte feedback-ul acordat de
utilizator. n mod particular, relevance feedback poate fi privit ca o tehnic de clasificare
de patern, sistemul utiliznd rspunsul returnat de utilizator pentru o antrenare continu a
sistemului. Relevance feedback utilizeaz exemplele pozitive i negative preluate de la
utilizator, pentru a imbuntii performana sistemului (Figura 2.3).
Principalele provocri pe care un sistem de cutare dup coninut trebuie s le
satisfac sunt:
performana sczut a sistemelor datorit volumelor mari de date (triliarde de
documente);
crearea de unelte software performante pentru interogare i regsire documentelor
dup concepte complexe;
mecanisme noi de navigare, astfel nct s ajute utilizatorul n mbuntirea
interogrii;
gradul de automatizare / reantrenare al sistemului n timp real;
coninutul: modul de ntelegere al documentelor din punctul de vedere al
utilizatorului;
3
surs imagine http://www.blog.joelx.com/dog-lookalikes.
16
descriptori: tipul de calcul al descriptorilor i limitrile numerice ale acestora;

performana: probleme de arhitectur a sistemului, de evaluare i integrare;
uurina utilizrii sistemului de ctre utilizator.
Fig. 2.3 Prezentarea procesului de interaciune utilizator-sistem n cadrul

algoritmului de relevance feedback.
2.4 Arhitectura unui sistem de indexare multimedia

Principiul de funcionare al unui sistem de indexare multimedia dup coninut const n
urmtorii pai: interogarea sistemului, cutarea n baza de date i afiarea rezultatelor
cutrii. Iniial, utilizatorul acceseaz interfaa sistemului (denumit browser) i genereaz
o nou interogare. Sistemul calculeaz descriptorul modelului cutat, dup care compar
gradul de similitudine dintre acesta i descriptorii stocai n baza de date. Sistemul va
prezenta utilizatorului documentele cu gradul de similitudine cel mai ridicat. Acest modul
poart numele de retriever. n cazul n care utilizatorul nu este satisfcut de documentele
returnate, el are posibilitatea de a selecta documentele relevante i de a efectua o nou
cutare n sistem. Procesul poate fi repetat pn cnd sistemul va oferi un numr suficient
de documente relevante pentru utilizator.
Un sistem de indexare multimedia dup coninut este alctuit din trei componente
principale: indexator, retriever i browser. Schema unui sistem de cutare a obiectelor
multimedia dup coninut este prezentat n Figura 2.4.
2.4.1 Indexator
Indexator-ul reprezint componenta de stocare i descriere a coninutului multimedia. De

asemenea, indexatorul are n componen i algoritmul de generare al vectorului
17
descriptor. Mai multe detalii despre structura unui descriptor vor fi prezentate n
Seciunea 3 a lucrrii. n acest subcapitol mi propun prezentarea pe scurt a tehnologiilor
care pot fi utilizate n stocarea descriptorilor i a fiierelor multimedia.
Sistemele de baze de date moderne pun la dispoziie metode i unelte specializate
pentru gestiunea bazelor de date multimedia. Fiierele multimedia sunt stocate sub forma
tipului de date BLOB (binary large objects) sau direct pe un fileserver, baza de date
coninnd doar calea acestora. Oracle este unul dintre SGBD-urile cu componente special
dezvoltate pentru gestiunea i stocarea bazelor de date multimedia. n Oracle exist dou
abordri ale bazelor de date multimedia: prima folosete baze de date relaionale iar a
doua utlizeaz baze de date obiect-relaionale. Prima variant utilizeaz tipuri de date de
tip LOB (Large Object), care permit stocarea fisierelor multimedia sub form binar. n
1999, Oracle introduce modulul Intermedia, care faciliteaz programarea obiect-
relaional, tipurile de date utilizate permind stocarea, gestiunea si regsirea datelor
multimedia ntr-o manier integrat cu tipuri de date tradiionale.
Fig. 2.4 Schema unui sistem clasic de cutare a documentelor multimedia dup coninut
Serverul de baze de date MySQL4 nu ofer caracteristici speciale pentru stocarea

imaginilor, ns pune la dispoziie tipul de date BLOB, utilizat pentru stocarea fiierelor
binare. Exist patru tipuri de date BLOB: TINYBLOB, BLOB, MEDIUMBLOB i
LONGBLOB. Singura diferen dintre acestea o reprezint dimensiunea maxim pe care
l poate avea fiierul stocat: n cazul n care fiierul va avea o dimensiune mai mare dect
cea maxim permis, acesta va fi trunchiat. Pentru fiiere de dimensiune foarte mare se
poate utiliza tipul de date varbinary, ns cu dimensiune limitat la 1 GB.
4
www.mysql.com - MySQL 5.0 Reference Manual. (2009)
18
Microsoft SQL Server5 conine de asemeni tipuri de date speciale pentru fiiere
binare: VARBINARY(max) cu valori maxime de pn la 2 GB, dar i tipul IMAGE (cu
valori maxime similare).
2.4.2 Browserul
Browserul este probabil, pentru utilizator, componenta cea mai important, deoarece
reprezint interfaa lui de interogare a bazei de date. Majoritatea sistemelor permit funcii
clasice de interogare i cutare a bazei de date:
afiare de documente aleatoare din baza de date;
afiare a documentelor dup o anumit logic: n ordine alfabetic a denumirii, n
ordinea lungimii documentului etc;
filtrare dup cuvinte cheie sau alte metadate (comentarii document, nume uploader,
seciune ncrcare document etc).
(a) (b)
(c) (d)
Fig. 2.5 Exemplu de browser pentru un sistem de cutare al imaginilor dup coninut
(Id-Image) prezentat n [11]: a) cutare de filme b) cutare de forme c) cutare de
texturi d) cutare de imagini medicale
A doua funcie a browser-ului este navigarea n baza de date i afiarea

documentelor. Au fost propuse mai multe modaliti de vizualizare i cutare a datelor:
5
http://www.microsoft.com/en-us/sqlserver - Microsoft SQL Server.
19
vizualizare clasic documentele sunt afiate n ordinea similaritii acestora (ex:

Figura 2.5). Un astfel de sistem propriu a fost prezentat n [11].
vizualizare 2D documentele sunt afiate pe o hart bidimensional n funcie de
gradul de similaritate dintre acestea [12] [13]. Pentru reducerea dimensiunii
descriptorului unui document i afiarea acestuia ntr-un spaiu 2D, au fost propuse
diverse variante de reducere a dimensionalitii. Algoritmii clasici propui sunt MDS,
PCA i FastMap [14] [15], ns acetia funcioneaz doar pentru tipuri de structuri
liniare. Ali algoritmi propui sunt: isometric mapping (ISOMAP) [16], local
linear embedding (LLE) [17] i stochastic neighbour embedding [18]. Exemple de
interfee 2D dinamice sunt RetrievalLab [19] i MediaMill [20] (Figura 2.6).
vizualizare 3D imaginile sunt prezentate ntr-un mediu 3D navigabil:
navigare 3D dup dimensiuni de similaritate (Figura 2.7);
3D n form de galaxie, rotor, glob, cruce, furculi, cilindru (Figura 2.8).
Fig 2.6 Exemple de browser 2D (MediaMill) [20]
Fig 2.7 Exemplu de browser cu navigare 3D (3D Mars) [21]. Sistemul permite cutarea
de imagini pe diferite direcii de similaritate (culoare, textur sau structur)
20
(a) (b) (c)
(d) (e)
Fig 2.8 Ilustraii ale unor sisteme cu browser cu navigare 3D n form de: a) cruce [20],
b) sfer [20], c) galaxie [20], d) i e) n form de cilindru [22]
2.4.3 Retriever
Retriever-ul este componenta care face legtura dintre interfaa utilizatorului i baza de
date. Acesta calculeaz descriptorul modelului cutat i l compar cu cele existente n
sistem. De obicei, acest modul este construit ntr-un mediu de programare care permite
calcule rapide i conine biblioteci multimedia: C, C++, .NET, Java, Matlab, Phyton, PHP
etc.
O component important a unui sistem de indexare este reprezentat de definirea
conceptului de similaritate (sau opus, disimilaritate) dintre date sau dintre descriptorii
acestora. Practic, identificarea rezultatelor cutrii se realizeaz prin localizarea datelor
ce sunt similare pn la un anumit nivel cu cererea de cutare (query). Cu alte
cuvinte, este necesar definirea unei funcii, capabil s evalueze n ce msur
dou obiecte multimedia, i , arat n mod similar. n general, evaluarea similaritii
dintre date se poate realiza fie la nivel de descriptori, la nivel de structur (layout) sau
la nivel semantic, fie folosind combinaii ale acestora.
Gradul de similaritate dintre dou fiiere multimedia se efectueaz n spaiul
descriptorilor, prin calcularea unei distane matematice dintre valorile celor dou perechi
de descriptori. n continuare, vom considera funcia S() o msura de distan (metric)
dintre 2 descriptori i . n cele ce urmeaz vom face o
21
trecere n revist a diverselor metrici folosite n domeniul cutrii informaiei. Marea

majoritate a acestora sunt inspirate din matematic [23].
Prima clas de msuri de similaritate dintre doi descriptori se bazeaz pe forma
Minkowski, care este definit ca:
( ) (2.1)
Cele mai utilizate distane Minkowski sunt distana euclidian (r=2), distana
Manhattan (r=1) i Chebyshev (r = infinit). Cutari recente au artat c utilizarea unui r
fracionar poate duce la performane mbunataite, ns este cunoscut c aceste distane
ncalc inegalitatea triunghiului. Howarth i Ruger [24] au demonstrat c performana de
regsire poate fi crescut n multe circumstane pentru r=0,5. Pentru o comparaie
complet dintre un document cutat i toi descriptorii din baza de date, complexitatea
metodei este O(mn), unde m reprezint lungimea vectorului descriptor, iar n reprezint
numrul de documente din baza de date.
n cazul n care nu toate elementele descriptorului au aceeai importan, distana
dintre fiecare pereche de valori poate fi ponderat diferit obinnd astfel distana
Minkowski ponderat:
( ) (2.2)
unde , cu i = 1, ..., n reprezint ponderile fiecrei valori.

Alte msuri de distan frecvent folosite sunt:
Distana Canberra [25]:
(2.3)
| |
Distana Bray Curtis:
(2.4)
| |
Distana Squared Chord [23]:
(2.4)
Evident aceast masur nu poate fi utilizat pentru coeficieni negativi

Funcia cosinus de disimilaritate calculeaz unghiul dintre doi vectori n spaiul
multidimensional [26]:
(2.5)
Divergena Kullback-Leibler [27]: este o distan nesimetric
22
(2.6)
Divergena Jefrey [28]:
( ) (2.7)
unde
Statistica X2 [29]:
(2.8)
unde
Coeficientul de corelaie Pearson reprezint o msur derivat din coeficientul de
corelaie Pearson
(2.9)
unde
( )( )
[ ( )( )][ ( )( )]
Pearson [29]:
(2.10)
Neyman:
(2.11)
Lorentzian:
(2.12)
Soergel:

(2.13)

Czekanowsky:

(2.14)

Wave-Hadges:

(2.15)

Chi-Square:
23

(2.16)

n cazul n care cei doi descriptori au lungimi diferite, a fost definit intersecia
parial de histogram. Cnd cei doi vectori au aceeai dimensiune, aceast distan este
echivalent cu distana Manhattan [30]:

(2.17)
Msurarea disimilitudinii descriptorilor cu ajutorul formei Minkowski neglijeaz
compararea elementelor din histograme care sunt similare, dar nu identice. De exemplu, o
imagine cu regiuni roii nchis va fi considerat la fel de similar cu o imagine roie
deschis ct i cu o imagine albastr. Pentru rezolvarea acestor probleme a fost introdus
distana ptratic dintre histograme sau distana Mahalanobis.
Distana Mahalanobis este dat de formula:
(2.18)
unde [ ] iar reprezint similitudinea ntre elementele cu indecii i i j.

De obicei, matricea A este simetric , iar . Complexitatea
metodei este , unde m reprezint numrul de trsturi, iar n reprezint numrul
de documente din baza de date.
O alt perspectiv o constituie reprezentarea datelor sub form de mulimi.
Distana Hausdorff evalueaz gradul de apropiere a dou submulimi (A i B) ntr-un
anumit spaiu. Formula de calcul pentru distana Hausdorff asimetric de la A la B este:
(2.19)
unde d() reprezint o anumit metric (de exemplu distana Minkowsky) iar max{}
returneaz valoarea maxim a unei mulimi.
Distana simetric Hausdorff este definit n modul urmtor:
(2.20)
Pentru seturi finite de puncte, aceasta poate fi calculat utiliznd diagrame
Voronoi n complexitate O((M + N)log(M + N)). Distana Hausdorff este sensibil la
zgomot, una din propunerile de reducere a acestuia putnd fi gsite n [31] [32].
2.5 Metode de fuzionare

n cele mai multe dintre cazuri, pentru reprezentarea coninutului multimedia este
necesar combinarea mai multor tipuri de descriptori. De exemplu, coninutul unei
secvene de imagini poate fi reprezentat att pe baza structurii temporale, ct i folosind
descriptori de micare, descriptori audio i aa mai departe. Metodele de fuzionare se
bazeaz pe principiul urmtor: o decizie agregat din partea mai multor sisteme expert
poate avea o performan superioar celei oferite de un singur sistem. O problem
24
complex poate fi mprit n mai multe subprobleme care sunt mai uor de neles i de
rezolvat (principiul divide et impera). De asemenea, se cunoate faptul c nu exist un
singur model de clasificare de patern care s funcioneze pentru toate problemele
(teorema no free lunch), efect care poate fi ns parial eliminat prin combinaia mai
multor algoritmi. n cele mai multe dintre cazuri, pentru reprezentarea coninutului
multimedia este necesar combinarea mai multor tipuri de descriptori. De exemplu,
coninutul unei secvene de imagini poate fi reprezentat att pe baza structurii temporale,
ct i prin utilizarea descriptorilor de micare, descriptori audio i aa mai departe. n
general, exist dou tipuri de fuzionare: fuzionare timpurie (early fusion) i fuzionare
trzie (Late Fusion).
2.5.1 Metode de tip Early Fusion
Fuzionarea timpurie se efectueaz la nivelul vectorilor descriptori, nainte de nceperea

procesului de clasificare. Clasificarea va fi apoi efectuat pe un vector care combin mai
muli descriptori. Deci, fuziunea datelor are loc n spaiul de caracteristici i const
practic n concatenarea propriu-zis a tuturor descriptorilor fr a ine cont de redundana
acestora. De exemplu, dac obiectul multimedia X este descris de descriptorii de coninut
, i respectiv , unde
a, b i c reprezint valorile atributelor acestora, descriptorul agregat este dat de
concatenarea valorilor . Acesta
definete astfel un nou spaiu de caracteristici (n + m + l) dimensional.
Pentru a putea fi concatenai, descriptorii vor parcurge un proces individual de
normalizare [33] i de filtrare (eliminare date lips, valori anormale etc).
Descriptor 1
Descriptor 1 normalizat
Descriptor 2 Descriptor 2 normalizat Clasificator decizie
Descriptor n normalizat
Descriptor n
Fig. 2.9 Schema unui sistem cu fuziune Early Fusion
Combinaia unui numr ridicat de descriptori implic mai multe probleme

elementare. Prima este generat de faptul c intervalele de variaie ale descriptorilor pot fi
diferite (de exemplu, un descriptor poate lua valori n intervalul [0,1] n timp ce altul
poate varia n gama [1000,10000]).
Metodele de normalizare cele mai utilizate sunt [34]:
25
Min-Max (MM): aceast metod mapeaz valorile vectorilor descriptori n

intervalul [0,1]. Scalarea elementelor se va efectua n funcie de valorile maxime i
minime ale vectorului descriptor:
(2.21)
Z-score (ZS): scaleaz valorile descriptorilor pe o distribuie de medie 0 i
dispersie egal cu 1.
(2.22)
Norma vectorului (vector norm): reprezint o metod preluat din algebra
liniar, unde, ca i n analiza funcional sau alte arii ale matematicii, o norm reprezint
o funcie care atribuie o lungime strict pozitiv unui vector ntr-un spaiu
multidimensional. Fie x un vector multidimensional: . Fie norma
vectorului x, avnd urmtoarele proprieti:
| | pentru i | | pentru
| | | |, pentru k scalar
| | | | | |
Definim funcia norm de ordin p -| | ca fiind:
| | ( ) (2.23)
Valorile cele mai des ntlnite ale lui p sunt 1,2 i . Pentru , vom avea
relaia:
| | (2.24)
Tangenta hiperbolic (tanh): mapeaz valorile n intervalul (0,1), n funcie de
distribuia sa statistic:
[ ( )] (2.25)
Scalarea zecimal: se utilizeaz atunci cnd scala dintre diferite valori ale
vectorului descriptor difer pe o scar logaritmic:
(2.26)
unde
Valoarea median sau deviaia median absolut [33]: ia n calcul valoarea
median a vectorului descriptor:
(2.27)
unde
Funcia sigmoid dubl [33]: se utilizeaz atunci cnd scala dintre diferite valori
ale vectorului descriptor difer pe o scar nedefinit:
26
(2.28)
( )
unde pentru x<t i pentru restul intervalului, iar t este de cele mai
multe ori media distribuiei descriptorului.
Fig. 2.10 Exemplu de normalizare folosind funcii dublu sigmoide (axa oX corespunde
valorilor iniiale iar axa oY valorilor normalizate).
Utilizarea primelor trei metode (min-max, z-score i tangenta hiperbolic) este

eficient, ns ultimele tehnici prezentate (valoarea median i funcia sigmoidal dubl)
sunt mai robuste pentru o plaj mai mare de probleme.
Dezavantajele majore ale tehnicilor de tip early fusion sunt urmatoarele:
- exist un control redus asupra contribuiei pe care o are fiecare vector descriptor asupra
rezultatului. Pot exista valori ale lungimii descriptorilor total disproporionate (un vector
descriptor poate avea dimensiuni de cateva elemente n timp ce alt vector descriptor poate
avea lungime de mii sau chiar zeci de mii de trsturi);
- descriptorii pot conine valori redundante care nu au nici o influen n creterea
performanelor;
- concatenarea conduce la dimensiuni mari ale vectorului descriptor nou creeat. Astfel,
procesul de clasificare va fi unul intens computaional.
n ciuda dezavantajelor, fuzionarea early fusion are, n multe cazuri, o
performan similar i chiar mai ridicat dect n cazul n care este utilizat metoda late
fusion [35].
2.5.2 Metode de tip Late Fusion
Algoritmii de tip late fusion propun mbinarea deciziilor individuale a mai multor
sisteme expert, dup ce au fost utilizai clasificatorii pe fiecare trstur n parte. Pe baza
27
rspunsurilor oferite de fiecare clasificator, se va calcula un raspuns agregat. n funcie de

metoda de combinare a clasificatorilor, late fusion se clasific n patru mari categorii:
- fuziune paralel: deciziile clasificatorilor sunt generate n mod paralel, ca apoi la
sfrit s fie luat o decizie final utiliznd rezultatele tuturor sistemelor;
- fuziune serial: deciziile sunt acordate gradual. n funcie de fiecare rspuns
intermediar, se decide dac se trece la alt clasificator sau decizia este final. Mecanismul
este preluat din algoritmul AdaBoost, care creeaz o cascad de clasificatori naivi [36].
- fuziune ierarhic: deciziile sunt luate n mod ierarhic, utiliznd noduri de decizie. n
funcie de decizia obinut ntr-un nod, se va trece ntr-un nou nod de decizie. Exist dou
tipuri de abordri ierarhice: buttom-up (mai multe clasificatoare converg ctre un
clasificator final) sau top-down (n funcie de decizia unui clasificator iniial, decizia se
separ pe mai multe nivele). Variantele de fuziune ierarhic utilizeaz arhitecturi
asemanatoare cu a arborilor de decizie (ID3, C4.5) [37] sau a arborilor aleatori [38].
- fuziune mixt: conine mai multe tipuri de fuziuni combinate.
(a) (b)
(c) (d)
Fig. 2.11 Ilustraii ale unor sisteme de late fusion: (a) Fuziune paralel ierarhic,
(b)Fuziune serial, (c) Fuziune Ierarhic Bottom-Up, (d)Fuziune Ierarhic Top-Down
n continuare, vom detalia modalitatea cel mai utilizat de luare al deciziei, i

anume cazul fuzionrii paralele. Acesta este ilustrat n Figura 2.11 (a). Avnd la
dispoziie N clasificatori antrenai cu descriptori de coninut diferit, fuzionarea de tip
late fusion presupune determinarea unei funcii care combin gradele de relevan
furnizate de fiecare clasificator n parte, , reprezint gradul de relevan
28
atribuit de clasificatorul i datelor de intrare. Acestea sunt probabilitile de apartenen la

clasele considerate, , unde c1, ..., cM reprezint clasele considerate iar
reprezint probabilitatea ca datele s fie atribuite ca aparinnd clasei c.
n mod natural, fiecare clasificator va tinde s furnizeze grade de apartenen
diferite, fiind antrenat pentru descriptori diferii. Funcia f (.) trebuie determinat n aa
fel nct rezultatele obinute de clasificatorul agregat s fie ct mai bune i superioare
fiecrui clasificator individual. Agregarea se va realiza pentru gradele de relevan ale
fiecrei clase n parte.
n funcie de modul de calcul al deciziei, exist dou tipuri de fuziuni: fuziune
prin vot i fuziune prin combinarea scorurilor clasificatorilor.
Fuziunea prin vot creeaz un scor prin numrarea rezultatelor primite din partea
mai multor perechi de clasificatori. Principalele metode de vot sunt:
- decizia este luat n funcie de performana celui mai bun clasificator
(2.29)
unde unde d reprezint documentul curent, iar reprezint decizia luat de clasificatorul
i.
- decizia este luat n funcie de numrul maxim de voturi (vot neponderat)
(2.30)
unde unde d reprezint documentul curent, iar este decizia luat de clasificatorul I
pentru descriptorul m.
- decizia este luat n funcie de scorul minim
( ) (2.31)
- decizia este luat n funcie de scorul maxim:
( ) (2.32)
- metoda Borda este bazat pe anumite strategii electorale existente n anumite ri.
Algoritmul presupune ca fiecare votant s genereze o ordine a preferinelor pentru
fiecare clas n parte. Astfel, primul clasat va avea n voturi, cel de pe poziia urmtoare n-
1 voturi. Clasa ctigatoare va fi cea n care suma preferinelor este maxim.
- metoda Condorcet [39]: se bazeaz de asemeni pe o anumit strategie
electoral, n care fiecare doi candidai se lupt reciproc, pn cnd avem un singur
ctigtor.
- metoda rangului clasic presupune c fiecare votant poate avea mai multe
opiuni de selecie. Se va selecta clasa cu numr maxim de voturi.
- metoda rank position: la fel ca n metoda Borda, fiecare clasificator va genera
o ordine a clasificrii. Scorul final al fiecrei clase va fi calculat utiliznd formula:
29
(2.33)

- metoda Pareto fiecare votant va genera o ordine a preferinelor. Vor fi
considerate voturi valide doar primele k preferine ale utilizatorilor (fiecare vot valid va
avea o valoare egal). Se va selecta clasa care prezint numrul maxim de voturi valide.
Fuziunea scorurilor de ncredere va combina rspunsurile de ieire ale
clasificatorilor.
Avantajul acestui mecanism de fuziune const n faptul c fiecare descriptor va fi
antrenat n mod separat pe un clasificator potrivit. De asemenea, clasificarea are o vitez
mult superioar deoarece se efectueaz pe seturi de date de dimensiuni reduse.
Principalul dezavantaj const n faptul c se pierde eventuala corelaie obinut prin
concatenarea grupurilor de descriptori. O prim modalitate de definire a funciei f() este
aceea a unei combinaii liniare a scorurilor de relevan:
( ) (2.34)
unde d reprezint documentul curent, reprezint probabilitatea de apartenen la

clasa , j = 1, ...,M cu M numrul de clase considerate, atribuit de clasificatorul i iar
reprezint un set de ponderi. Un caz particular l reprezint considerarea de ponderi egale
ceea ce conduce la nsumarea gradelor de relevan pentru fiecare clas.
Un alt exemplu este atribuirea unei ponderi superioare acelor date care
( ) (2.35)
unde F(d) reprezint numrul de clasificatori pentru care documentul d apare n primele k
documente din punct de vedere al valorii de relevan (k este o constant stabilit a priori)
iar este un parametru de control.
n contextul diversificrii metodelor de extragere a trsturilor i a apariiei unui
numr ridicat de algoritmi de clasificare, fuziunea a devenit un domeniu de cercetare
foarte activ. Aceasta i propune s mreasc performana sistemelor de clasificare prin
agregarea deciziei din surse diferite de date, utiliznd o varietate de etape de clasificare.
Astfel, mecanismele de fuzionare exploateaz diversitatea informaiei provenit din surse
diferite.
Tehnicile de tip late fusion sunt mai avantajoase din punct de vedere
computaional, deoarece agregarea se face folosind dimensiunea iniial a descriptorilor.
Este mai eficient clasificarea unor descriptori de dimensiuni reduse i agregarea
rezultatelor dect clasificarea unui descriptor agregat de dimensiuni semnificativ mai
mari. Principalul dezavantaj al acestor metode este, totui, dat de pierderea eventualei
corelaii dintre descriptori, corelaie ce se obine n cazul concatenrii acestora i care
poate furniza un nivel de discriminare superior folosirii individuale a acestora.
30
n ciuda diferenelor dintre cele dou abordri, early fusion i respectiv late
fusion, nu exist o metod preferenial n defavoarea celeilaltei, ambele abordri
dovedindu-se eficiente n contexte diferite. Astfel c tehnica de fuziune a datelor rmne
dependent de aplicaie [35].
2.6 Msurarea performanelor

Evaluarea i msurarea performanelor algoritmilor de indexare reprezint o problem
crucial. Criteriile de evaluare a performanelor trebuie s evidenieze diferenele dintre
rspunsul ateptat i cel acordat de ctre sistem. Aceste metrici au rolul de a nltura
subiectivismul n msurarea performanelor sistemului, i de a reflecta starea obiectiv a
acestuia n comparaie cu alte sisteme.
2.6.1 Standardul MPEG 7
Odat cu apariia primelor articole de indexare multimedia, problema principal const n

lipsa de baze de date comune, general acceptate pentru testarea algoritmilor, i a unor
seturi de metrici de evaluare utilizate global. Cteva popuneri au fost facute de ctre [40]
[41] [42]. Un prim standard de msuri de calitate au fost specificate n standardul MPEG-
7, n 2001. Acesta cuprinde un set bine definit de parametri, i anume: rata de regsire
(retrieval rate RR), media ratei de regsire (average retrieval rate - ARR), media
rangului (average rank AVR), rangul de regsire modificat (modified retrieval rank
MRR), rangul de regsire modificat normalizat (normalized modified retrieval rank
NMRR), media rangului de regsire modificat normalizat (average normalized
modified retrieval rank ANMRR).
Rata de regsire reprezint numrul de rezultate obinute pentru interogarea q din
numrul de rezultate corecte gsite n primele NF elemente:
(2.36)
unde NG(q) reprezint numrul de documente pozitive coninute de interogarea q n
primele NF documente returnate. Rata de regsire ia valori ntre 0 i 1, unde 0 reprezint
faptul c niciun document nu a fost regsit, iar valoarea 1 reprezint perfomana maxim.
n cazul n care avem mai multe interogri q, putem calcula media ratei de regsire ARR:
(2.37)
unde NQ reprezint numrul de interogri.

Msurile bazate pe numrul de imagini relevante returnate sunt uor de calculat,
ns nu specific pe ce poziie se afl documentele care nu au fost afiate, deci nu ofer o
31
descriere complet a performaei sistemului. De aceea, au fost introduse msuri bazate pe

rangul imaginilor relevante returnate. Rangul unui document este calculat astfel:
{ } (2.38)
De aici, definim media rangului (average rank) AVR
(2.39)
Principalul dezavantaj al primelor dou formule este reprezentat de faptul c

numrul de documente relevante este calculat prin utilizarea unui NF diferit de la o
interogare la alta (numrul de documente relevante poate diferi de la un concept la altul).
Pentru a minimiza variaiile NF asupra rezultatului, s-a definit rangul de regsire
modificat (modified retrieval rank) MRR:
(2.40)
MRR are valoarea 0 pentru regsire complet a documentelor cutate. Pentru a

elimina total dependena faa de NF se definete rangul de regsire modificat normalizat
(normalized modified retrieval rank):
(2.41)
Iar de aici, se definete media rangului de regsire modificat normalizat
(average normalized modified retrieval rank) ANMRR:
(2.42)
ANMRR este criteriul de evaluare folosit pentru experimentele MPEG-7. O

valoare sczut a ANMRR indic o performan foarte bun, n timp ce valoarea 1
reprezint un sistem ce returneaz rezultate complet eronate.
2.6.2 Graficul precizie-reamintire
Graficul Precizie-Reamintire (precision-recall) [43] reprezint un criteriu des ntlnit n

evaluarea sistemelor de indexare. Precizia unei interogri reprezint raportul dintre
numrul de documente corect regsite de sistem i numrul total de documente afiate de
sistem. Reamintirea unei interogri este egal raportul dintre numrul de documente
regsite de sistem i totalul documentelor corecte existente n baza de date:
(2.43)

(2.44)
32
Plaja de valori al acestora se gsete n intervalul [0; 1] unde 1 reprezint cazul

ideal n care nu exist nici o fals detecie i respectiv toate documentele existente n baz
au fost gsite. Dat fiind faptul c aceste msuri sunt evaluate pentru o anumit cutare
particular, pentru a obine o msur global de performan de regul se calculeaz
valorile medii ale acestora pentru un anumit numr de cutri. Dac baza de date este
cunoscut, atunci se poate realiza o evaluare exhaustiv n care fiecare document din baz
este folosit pentru a specifica cererea de cutare iar performana sistemului este estimat
ca valoare medie pentru toate cutrile efectuate.
Prin gruparea celor dou valori se genereaz graficul precizie-reamintire. Precizia
i reamintirea sunt dependente de interogare, iar din acest motiv se determin o medie
aritmetic pentru mai multe msurtori. n mod normal, se utilizeaz toate imaginile din
baza de date. Pentru un sistem perfect, graficul trebuie s aib forma din Figura 2.12 a, n
timp ce pentru cel mai slab sistem va arta ca n Figura 2.12 b. De asemenea, se poate
observa c precizia este invers proporional cu reamintirea: n timp ce precizia crete
valoarea reamintirii este n scdere. Principalul dezavantaj al curbei precizie-reamintire l
constituie faptul c diferena de performan dintre dou sisteme se poate doar vizualiza
i nu se poate cuantifica ntr-o valoare exact. De asemenea, msurarea reamintirii este
greu de calculat deoarece de multe ori este dificil de tiut numrul exact de documente
relevante pentru un anumit concept. Problema apare mai ales n situaiile cnd numrul
de concepte este foarte ridicat, iar evaluarea se face de ctre utilizatori.
(a) (b) (c)
Fig. 2.12 Interpretarea graficelor precizie-reamintire: (a) Graficul precizie-reamintire

pentru un sistem ideal, (b) pentru un sistem cu 0% documente regsite, (c) pentru un
sistem cu 100% documente corecte
Din precizie i reamintire deriv eficiena:

{ } (2.45)
unde A reprezint numrul de documente returnate relevante, B numrul de documente
returnate nerelevante, C numrul de documente nereturnate relevante, iar D numrul de
documente nereturnate nerelevante. Inversul eficienei reprezint eroarea (
).
33
Scorul - F-measure (cunoscut ca i F-score) reprezint un parametru de

msurare a acurateii. Acesta poate fi interpretat ca o medie ponderat a preciziei i
reamintirei unui sistem:
(2.46)
Pentru avem F-measure egal cu precizia, n timp ce pentru
F-measure devine egal cu precizia. Pentru obinem :
(2.47)
n ultimii ani, alte msuri au devenit mai des utilizate. Cel mai important standard
utilizat de ctre comunitatea TREC este Mean Average Precision (MAP), care propune
utilizarea unei singure formule pentru a msura performana printre nivelele de
reamintire. MAP a demonstrat c deine un nivel ridicat de stabilitate i bun
discriminare. De asemenea, MAP reprezint media valorilor preciziilor medii obinute pe
un numr de documente returnate. Precizia medie este egal cu:
(2.48)
unde n reprezint numrul de documente, m numrul de documente care aparin clasei c,

iar este al k-lea document din lista returnat. n final, reprezint funcia care
returneaz numrul de documente de gen c n primele k documente returnate dac
aparine conceptului c i zero n cazul diferit.
2.6.3 Ali parametri
Curbele ROC (Receiver Operating Characteristic) reprezint o msur preluat din

teoria deteciei de semnal i conine un grafic ce prezint rata de afiare a documentelor
adevrat-pozitive versus rata de afiare a imaginilor fals-pozitive. Iniial, acest grafic a
fost utilizat n al doilea rzboi mondial, n scopul mbuntirii deteciei radarului
tehnic cunoscut sub numele de teoria deteciei semnalului [44], fiind utilizat ulterior n
medicin, radiologie, data-mining i machine-learning.
Pentru desenarea acestui grafic este nevoie de rata de detecie fals-pozitiv (False
Positive Rate - FPR) i rata de detecie adevrat pozitiv (True Positive Rate - TPR). TPR
msoar numrul de instane clasificate corect n timpul testului, n timp de FPR
evideniaz numrul de elemente ce au fost clasificate n mod eronat.
Se pot deduce cu uurin relaille dintre TPR i FPR cu precizia i reamintirea:
(2.49)
( ) (2.50)
34
(a) (b)
Fig. 2.13 Interpretarea curbelor ROC: (a) Curba ROC al unui sistem ideal, (b)Curba
ROC a unui sistem cu performane foarte slabe
Alte metode de msurare ntlnite sunt:

Rangul primului document relevant
Rangul mediu
Rangul mediu normalizat:
. / (2.51)
unde N este numrul total de documente, NR numrul de documente relevante iar i

reprezint rangul la care un document relevant este regsit.
2.7 Baze de date

Cei mai muli algoritmi de computer vision sau machine learning au n componen o
funcie de antrenare i o baz de date de testare. Pentru a dezvolta algoritmi i trsturi
performante este necesar existena unei baze de date cu exemple foarte diverse. Spre
exemplu, cunoscutul algoritm de detecie a feelor creeat de Paul Viola i Michael Jones
utilizeaz o baz de date de 4916 imagini adnotate. ns, achiziia unui volum ridicat de
documente multimedia este, de foarte multe ori, un proces foarte dificil i ndelungat. Mai
mult, operaiile de redimensionare i marcare a regiunilor de interes a documentelor
multimedia reprezint o operaiune dificil i consumatoare de timp.
Cele mai multe baze de date utilizate n computer vision au fost realizate pentru
anumite probleme specifice, cum ar fi: recunoaterea de forme, imagini naturale, obiecte,
recunoatere de genuri (muzicale, video), recunoatere de aciuni etc.
Una dintre problemele principale pe care cercettorii le ntmpin se datoreaz
faptului c multe articole sunt realizate pe baze de date proprii, astfel nct comparaia
reprezint o munc foarte complicat. Fiecare dintre aceste baze de date conin proprieti
diferite, ceea ce fac ca rezultatele raportate s fie foarte greu de analizat i comparat n
mod direct. De exemplu, n cutarea de imagini, baze de date diferite conin imagini de
35
dimensiuni diferite, nivele de calitate diferite, variaii de obiecte, ocluziuni, ceea ce

conduc la rezultate diferite.
n continuare, vor fi prezentate o serie de baze de date multimedia utilizate de
ctre autor pe perioada studiilor doctorale.
2.7.1 Baze de date de imagini
ImageClef
Competiia ImageClef (The CLEF Cross Language Image Retrieval Track) este creat
i ntreinut de ctre Cross Language Evaluation Forum (CLEF). Aceasta propune n
fiecare an diferite task-uri cu baze de date diferite. n 2012, au fost propuse 4 competiii:
clasificare de imagini medicale, adnotare de fotografii, identificare plante i Robot
Vision, fiecare coninnd la rndul lor mai multe task-uri.
Baza de date medical conine 305.000 imagini, extrase din articolele publicate n
diverse domenii medicale (radiografii i ecografii). Aceasta conine trei probe:
determinarea sursei imagini preluate (Modality Classification), regsire de imagini
dup anumite interogri (Ad-hoc image-based retrieval) i cutare imagini dup
concept (Case-based retrieval). Competiia de indexare de fotografii conine dou
probe: prima presupune detecia de concepte vizuale pentru imagini de pe Flickr, iar a
doua const n indexarea de imagini de pe Web.
Fig. 2.14 Exemple de imagini din baza de date Image CLEF: (a) imagini din competiia
de clasificare de fotografii (primele 3 imagini prezint conceptual de reflexie iar ultimele
dou conceptual de lumini n trafic) i (b) imagini cu plante pentru competiia de
identificare de tipuri de plante (surs imagini6)
Prima baz de date conine 25.000 de imagini downloadate de pe Flickr i const

n detecia anumitor concepte, ca de exemplu: perioada zilei, elemente natural (soare,
nori), peisaje (flor, faun, identificare forme relief), numrul de persoane i vrsta
6
: http://www.imageclef.org/
36
acestora etc. Sunt permise utilizarea de trsturi vizuale ct i a metadatelor preluate de

pe Flickr. Pentru a doua problem, baza de date are o dimensiune mult mai mare, de
250.000 de imagini i conine un numr mult mai ridicat de concepte. Pentru fiecare baz
de date sunt puse la dispoziia participanilor un set de descriptori vizuali i de text. Mai
multe detalii despre competiie se pot gsi la adresa: http://www.imageclef.org/.
Caltech
Prima baz de date Caltech a fost creat de ctre California Institute of Technology i
coninea 4300 de imagini naturale grupate n modul urmtor: 1074 avioane, 1155 de
maini, 450 oameni, 826 motociclete i 900 imagini generale. Apoi, n septembrie 2003,
aceasta a fost refcut de ctre Fei-Fei Li, Marco Andreetto, Marc Aurelio Ranzato i
Pietro Perona de la Caltech. Noua baz de date coninea 9146 imagini, mprite n 101
obiecte distincte (incluznd spre exemplu fee, ceasuri, crocodili, avioane furnici,
instrumente muzicale etc) i o categorie care conine imagini de background.
Fig. 2.15 Exemple de imagini din baza de date Image Caltech 101(surs imagine7)
Caltech 101 conine cteva avantaje fa de alte baze de date: imaginile au

dimensiune uniform, iar, pentru aceeai categorie, obiectele au dimensiuni apropiate i
sunt aezate n poziii relative asemntoare. Acest lucru nseamn c utilizatorii care
utilizeaz baza Caltech 101 pierd timp cu localizarea automat sau manual a obiectelor.
Obiectele sunt de cele mai multe ori n prim plan, nu exist ocluziuni sau alte tipuri de
zgomot. Dei imaginile au obiectele cutate foarte bine evideniate, acestea au un
background diferit, ceea ce face ca problema de clasificare s fie mai dificil i mai
aproape de un scenariu real.
Principalul dezavantaj al bazei de date Caltech 101 este reprezentat de numrul
mic de clase i de faptul ca anumite clase sunt insuficient reprezentate (exist clase cu 30
de imagini ceea ce este insuficient). Din acest motiv, n 2007 a fost creeat o nou baz
de date Caltech 256. Aceasta conine 30.607 imagini grupate n 256 categorii. Fiecare
concept este mult mai bine reprezentat, numrul minim de imagini per categorie fiind
egal cu 80.
Mai multe detalii despre baza de date Caltech pot fi gsite la adresa de download
http://www.vision.caltech.edu/.
7
http://www.vision.caltech.edu/
37
Compeia Pascal
Scopul principal al competiiei Pascal este de a recunoate i localiza obiecte dintr-un

numr redus de clase aflate n scene foarte realistice. Baza de date conine 20 de clase
care pot fi mprite n 4 categorii:
Persoane: persoane n diferite contexte;
Animale: psri, pisici, vaci, cini, cai, oi;
Vehicule: avioane, biciclete, brci, autobuze, maini, motociclete, trenuri;
Obiecte: sticle, scaune, mas de cin, plante n ghiveci, canapele, televizor.
Competiia conine trei concursuri: clasificare (indic prezena sau absena uni
concept intr-o fotografie), detecie (localizeaz obiectele n fotografie) i segmentare
(extragere contur obiect).
Fig. 2.16 Exemple de imagini din baza de date Image Pascal 2007(surs imagini8)
2.7.2 Baze de date video
MediaEval
MediaEval (iniial denumit VideoCLEF) este o competiie care i propune s dezvolte i

s evalueze probleme de analiza datelor multimedia ntr-un cadru multilingv. n 2013, au
fost propuse mai multe probe, ca de exemplu: Placing Task (acesta solicit participanilor
s atribuie coordonate geografice anumitor documente video), Social Task (s clasifice
evenimente sociale i s detecteze articole media associate), Spoken Web Search (cutare
de cuvinte n documente audio), Tagging Task (clasificare dup gen a documentelor
video web) [45], Affect Task: Violent Scenes Detection (detecie de cadre cu coninut
violent) [46], Visual Privacy Task (detecie de fee i ascunderea identitii). n cele ce
urmeaz, voi prezenta doar competiiile Tagging Task i Affect Task la care am
participat.
8
http://pascallin.ecs.soton.ac.uk/challenges/VOC/
38
Competiia Tagging Task i propune s atribuie automat etichete documentelor

video web, utiliznd trsturi care sunt derivate din coninutul audio, vizual, text i din
metadata. Baza de date este alctuit din 14.838 documente video copiate de pe blip.tv,
acestea fiind mprite n dou pri: un set de antrenare de 5.288 secvene video (36%) i
9.550 filme de test (64%). Documentele video au fost mprite n 26 de categorii
specifice platformelor web, i anume: art (530), autovehicule (21), business (281),
jurnalism (401), comedie (515), conferine i alte evenimente (247), filme documentare
(353), educaionale (957), mncare i butur (261), jocuri de calculator (401), sntate i
medicin (268), literatur (222), filme i televiziune (868), muzic i divertisment (1148),
autobiografii (165), politic (1107), religie (868), coal i educaie (171), sport (672),
technologie (1343), mediu ncurjtor (188), media (324), cltorii (175), video blogging
(887), tutorial de web development (116) i categoria altele (2349 care cuprinde
documentele ce nu au fost atribuite nici unei categorii. Principala provocare a acestei
competiii a fost reprezentat de diversitate genurilor ct i de variaia vizual a
coninutului fiecrui gen. Figura 2.17 ilustreaz exemple din baza de date.
Fig. 2.17 Exemple de documente video din baza de date MediaEval 2012 (Tagging
Task)(surs imagini9)
Competiia Affect Task i propune recunoaterea de cadre cu coninut violent.

Aceasta s-a inspirat dintr-un scenariu propus de Technicolor, care i propunea s ajute
utilizatorii s selecteze filme care sunt potrivite pentru copii de diferite vrste. Utilizatorii
pot selecta / respinge anumite filme doar prin vizualizarea scenelor care sunt apreciate ca
fiind cele mai violente.
9
http://www.multimediaeval.org/
39
Baza de date a fost mprit n dou pri: 15 filme de antrenare i 3 filme pentru
testare: Dead Poets Society (34 scene violente), Fight Club (310 scene violente) i
Independence Day(371 scene violente) un total de 715 scene violente (etichetarea
bazei de test a fost fcut public dup competiie). La competiie au participat un total de
8 echipe, care au susinut 36 de metode. Evaluarea s-a realizat att la nivel de scen ct i
la nivel de segment.
2.8 Concluzii capitol

Acest capitol i propune s prezinte o introducere n domeniul indexrii informaiei
multimedia. Prima parte cuprinde un scurt istoric despre dezvoltarea sistemelor bazate pe
cutare dup coninut i prezint principalele concepte fundamentale: modalitatea de
interogare a sistemului i modul de reprezentare a datelor. Principalele surse de
informaie pentru descrierea coninutului multimedia sunt: informaia vizual (se refer la
informaiile care pot fi percepute vizual: culoare, form, textur, micare), informaia
audio (voce, vorbire, muzic, sunete ambientale sau zgomot) i informaia textual
(datele reprezentate sub form de text ce pot proveni din metadate sau din subtitrri). Tot
n acelai subcapitol sunt prezentate o serie de algoritmi de baz pentru indexarea datelor
vizuale, audio i text.
Urmtorul subcapitol urmrete prezentarea diverselor aplicaii a sistemelor
multimedia de indexare. Coninutul multimedia face parte din viaa cotidian,
aplicabilitatea lor avnd un spectru foarte larg: de la activiti banale cotidiene pn la
domenii complexe de cercetare. Capitolul continu cu o seciune n care sunt prezentate
principalele provocri care apar n proiectarea unui sistem de indexare dup coninut:
paradigma semantic i paradigma senzorial. Tot n cadrul aceste seciuni, am prezentat
principalele direcii de cercetare, pe care le voi dezvolta n capitolele viitoare.
n final, am prezentat componentele principale ale unui sistem de cutare dup
coninut: indexatorul, retriever-ul i browserul. Indexatorul este componenta principal a
unui sistem multimedia, acesta stocheaz fiierele multimedia mpreun cu descriptorii
acestora. Sistemele de gestionare a bazelor de date ofer diferite metode pentru stocarea
i descrierea fiierelor multimedia. Retriever-ul are rolul de a calcula gradul de
similaritate dintre modelul cutat i documentele stocate n baza de date. Pe baza unor
metrici de similaritate, retriever-ul va selecta documentele relevante pentru cutarea
curent. Browser-ul este componenta care face legtura ntre sistemul de indexare i
utilizatorul final. Principalele funcii ale browser-ului sunt alegerea sau ncrcarea
modelului cutat i vizualizarea rspunsurilor generate de sistem. n capitolul 3, va fi
dezvoltat ntr-o manier mai amnunit componenta de indexare a sistemelor
multimedia.
40
Capitolul 3
Metode clasice de descriere a
coninutului multimedia
Procesul prin care creierul uman nelege i percepe informaia vizual i auditiv nu este
n prezent pe deplin neleas. ns, cercetarea n acest sens arat c anumite trsturi i
informaii vizuale / auditive sunt mai importante n descrierea coninutului multimedia.
n cazul imaginilor, cele mai importante proprieti sunt: culoarea, textura, forma
obiectelor componente, colurile i frontierele obiectelor ce compun scena. O persoan
este capabil s perceap un obiect chiar dac acesta este parial opturat, sau n condiii
de vizibilitare redus. De asemenea, pentru auz, o persoan este capabil s neleag
anumite cuvinte pe care nu le poate aude prin utilizarea informaiei extrase din context.
Acelai lucru este posibil i la citirea unor propoziii n care unele cuvinte sunt ascunse
sau scrise n mod eronat, dar pe care le putem ntelege din context.
Acest capitol i propune s prezinte descriptorii multimedia dup coninut:
culoarea, forma, textura, punctele proeminente, descrierea fluxului video, trsturi audio
i de text.
3.1 Descriptori de culoare

Culoarea este probabil cea mai expresiv dintre toate componentele vizuale. Primele
sisteme de cutare dup coninut a imaginilor au utilizat culoarea ca i informaie de baz
pentru indexare.
3.1.1 Spaii de culoare
Primele studii despre culoare au fost efectuate de ctre Newton [1], prin trecerea luminii
solare ntr-o prism de cristal, demonstrndu-se astfel dependena culorii de compoziia
spectral a luminii. O suprafa care reflect lumina, reflect independent fiecare
component spectral (fiecare frecven sau, echivalent, fiecare lungime de und). Atunci
cnd un obiect este iluminat, el va absorbi o parte din radiaia emis, iar o partea din
aceasta va fi reflectat. n funcie de suprafaa fiecrui material, dou obiecte difer prin
modul n care absorb, reflect sau transmit lumina atunci cnd sunt iluminate, prin
urmare ochiul uman vizualizeaz n mod diferit, deoarece primete o cantitate diferit de
lumin.
41
Studiile au continuat i n secolele urmatoare fr mbuntiri notabile. Abia n

secolul XIX, Young i Maxwell au descoperit c fiecare culoare poate fi matematic
codat prin mbinarea a trei culori fundamentale: R (rou) G (verde) B (albastru),
principiu cunoscut sub numele de teorie a tricromaticitii [43]. Ochiul nu distinge ca
avnd culori separate orice surs luminoas cu distribuii spectrale diferite. Explicaia
este c pe retin se gsesc trei tipuri de receptori, pentru diferite pri din spectrul luminii.
Fiecare tip de receptor va genera un nivel de excitaie, n funcie de radiaia
luminoas pe care o primete. n cele din urm, aceasta poate fi reprezentat ca un numr
real. Dou culori sunt percepute identic dac oricare dintre ele declaneaz acelai
rspuns din partea fiecrui tip de receptor. Matematic, cele de mai sus se formalizeaz
astfel: fiecare tip de celule se caracterizeaz printr-o curb de sensibilitate - o funcie
definit pe intervalul de lungimi de und ale luminii vizibile i cu valori reale pozitive.
Rspunsul fiecrui tip de receptor este dat de produsul scalar al distribuiei spectrale a
luminii incidente cu o curb de sensibilitate a receptorului respectiv.
Prima reprezentare a culorilor aparut a fost reprezentarea XYZ. Reprezentarea
XYZ const n trei numere reale pozitive, notate X, Y i Z, fiecare dintre ele fiind definit
ca produsul scalar dintre distribuia spectral a puterii luminii i o curb de sensibilitate
standardizat [43]. Ulterior, au fost dezvoltate mai multe teorii, descrieri i reprezentri
ale culorilor, din care voi enumera cteva mai importante [43]: teoria culorilor opuse
(dezvoltat de Hering), eclipsele MacAdams, spaiul YUV, spaiul U*V*W*, CIE Lab
1976 i familia de culori HSV.
RGB
Modelul de culoare RGB este cel mai cunoscut, fiind aplicat n majoritatea dispozitivelor
electronice. Acesta este un model aditiv n care culorile rou, verde i albastru sunt
adugate mpreun n diverse cantiti pentru a reproduce o gam larg de culori. Numele
modelului vine de la iniialele celor trei culori aditive (Red, Green, Blue). Principalul
scop al modelului RGB fiind de a afia imagini n sistemele electronice (monitoarele sau
aparate foto). n sistemele de cutare dup coninut, acest spaiu de culoare este puin
utilizat deoarece conine un grad mare de corelare ntre cele trei componente. Culorile
sunt exprimate prin valori cuprinse ntre 0 i 255, genernd un numar de culori (24
biti per culoare). Din RGB au fost derivate diverse modele de culoare:
sRGB - spaiul de culoare RGB standard creat de HP
i Microsoft (monitor + Internet);
Adobe RGB - spaiul de culoare RGB creat de Adobe
Systems n 1998.
Fig. 3.1 Cubul RGB(surs

imagine Wikipedia).
42
YCbCr
YCbCr este un alt spaiu de culoare utilizat n diverse componente electronice. Y

reprezint luminana, iar Cr i Cb reprezint diferenele de culoare roie i albastr.
YCbCr reprezint o transformare liniar a RGB i are avantajul c separ informaia de
culoare de cea de luminan.
Relaiile de calcul ale celor trei
componente sunt:
Y = 0.299R + 0.587G + 0.114B
Cb = -0.169R 0.331G + 0.5B
Cr = 0.5R 0.419G + 0.081B
Fig. 3.2 Planul YCbCr cu y = 0.5, (surs
imagine Wikipedia).
Familia de culori HSV
Familia de culori HSV conine mai multe tipuri de spaii de culoare: HSV (Hue (nuan),
Saturation (saturaie), Value (valoare)), HSB (Hue (nuan), Saturation (saturaie),
Brightness (strlucire)) i HSL (Hue (nuan), Saturation (saturaie), Lumination
(luminaie)). Principalul avantaj al acestor reprezentri este descrierea diferenelor de
culori ntr-o manier mai apropiat de sistemul vizual uman. n computer vision, spaiul
HSV prezint o performan de indexare mai bun n comparaie cu RGB.
(a) (b)
Fig. 3.3 Spaiul de culoare a familiei HSV (a) Cilindrul HSL (b) Cilindrul HSV (surs
imagine Wikipedia).
HSV este ideal pentru manipularea culorii deoarece separ intensitatea de nuan
i saturaie. H (hue) reprezint componenta spectral dominant, culoarea n forma cea
mai pur, ca de exemplu verde, rou sau galben. A doua component a culorii n spaiul
HSV este reprezentat de saturaie: adaugarea sau substracia de alb dintr-o culoare va
43
schimba intensitatea acesteia, mai precis va deveni mai mult / puin saturat. Componenta
value (V) corespunde luminanei culorii.
HMMD
HMMD (Hue Min Max Dif) [47] este un spaiu de culoare definit n MPEG-7. Prima
component de nuan de culoare are acelai neles ca n HSV, iar MIN i MAX
reprezint minimul i maximul n cadrul valorilor RGB. Componenta DIF este definit ca
diferena dintre valorile minime i maxime ale tripletei RGB. Doar trei dintre cele patru
componente sunt suficiente pentru descrierea coninutului de culoare, a patra component
putnd fi calculat automat din primele trei. De asemenea, se poate defini o a cincea
component Sum care reprezint suma componentelor Min i Max.
Interpretarea fiecrei componente din spaiul HMMD este distinct: nuana ia
valori n intervalul , la fel ca n cazul HSV, Max (n intervalul ) specific
ct culoare neagr este prezent, Min (n intervalul ) arat cantitatea de culoare, Dif
specific puritatea culorii albe (avnd o interpretare asemntoare cu a saturaiei), n timp
ce Sum specific luminozitatea culorii.
Sistemul de coordonate este reprezentat printr-un con dublu (Figura ). HMMD a
fost conceput datorit proprietilor similare cu spaiul HSV, ns are avantajul c este
mult mai rapid n procesul de calcul / conversie din spaiul RGB.
Fig. 3.4 Sistemul de coordonate pentru H.M.M.D. (surs imagine Wikipedia).
CIE Lab
Modelul de culoare Lab i propune s modeleze spaiul de culoare ct mai aproape

matematic de sistemul vizual uman. Valorile numerice din Lab descriu toate culorile care
pot fi percepute de o persoan cu vedere normal. Modelul a fost definit n 1976 de ctre
44
International Commission on Illumination, i mai este cunoscut sub urmtoarele

denumiri: CIE 1976, L*a*b* sau CIELAB. Deoarece Lab descrie modul n care arat o
culoare i nu cantitatea de culoare necesar unui dispozitiv (precum un monitor, o
imprimant desktop sau o camer digital) pentru a produce culori, Lab este considerat
un model de culoare independent de dispozitiv. Sistemele de gestionare a culorii
utilizeaz Lab ca referin de culoare, pentru a transforma o culoare dintr-un spaiu de
culoare n alt spaiu de culoare.
Cele trei coordonate ale sistemului Lab reprezint: luminana culorii (L* = 0
reprezint negru i L* = 100 indic un alb mat; valorile pentru alb strlucitor pot fi mai
ridicate), poziia culorii ntre rou-magenta i verde (a*, valorile negative caracterizeaz
o culoare apropiat de verde i cea pozitiv indic magenta), iar ultima component
prezint poziia culorii ntre galben i albastru (b*, valori negative indic o culoare
albastr n timp ce valorile pozitive reprezint similaritatea fa de galben).
Modelul L*a*b* tridimensional, el poate fi reprezentat sub forma unei sfere
(Figura 3.5)
Fig. 3.5 Sistemul de coordonate pentru CIE Lab (surs imagine Wikipedia).
Transformarea ntre RGB i Lab este neliniar i este dat de relaiile:

( ) (3.1)
( ( ) ( )) (3.2)
( ( ) ( )) (3.3)
unde reprezint albul pur iar funcia neliniar f este definit n modul urmtor:
2 (3.4)
45
Principalul dezavantaj al spaiului de culoare Lab este reprezentat de efortul

computaional ridicat (calculul radicalului de ordin trei).
Color Naming
Acest model [48] conine 11 culori elementare care au aceeai semnificaie n toate
limbile pmntului: negru, albastru, maro, gri, verde, portocaliu, roz, purpuriu, rou, alb
i galben. Paleta de culori a fost antrenat i etichetat de ctre un grup extins de subieci
din diverse ri.
Figura 3.6 prezint cele 11 culori fundamentale:
Fig. 3.6 Spaiul de culoare Color Naming (surs imagine [48])
3.1.2 Histograma imaginii
Matematic, o imagine este o funcie , n cazul n care imaginea este

color, sau , n cazul n care avem o imagine monocrom [44].
Histograma constituie un grafic al preponderenei pixelilor de anumit tonalitate. Pe
scurt, ea ne ofer informaii cu privire la distribuia culorilor dintr-o imagine. Pentru o
imagine alb-negru avem un singur grafic, iar pentru spaiile de culoare color putem avea
trei grafice, cte unu pentru fiecare canal n parte. De asemenea, histograma RGB poate fi
vizualizat i ntr-un spaiu 3D, n care numrul de pixeli de o anumit culoare este
reprezentat ca o sfer de raz proporional cu numrul de pixeli [1]. Primele aplicri ale
histogramei n domeniul indexrii de imagini, au fost efectuate n 1991 de ctre Swain i
Ballard [49], aceasta, devenind de altfel, o metod de referin pentru descrierea
coninutului vizual. Calculul histogramei este realizat cu formula urmtoare:
(3.5)
unde c reprezint o culoare dintr-un spaiu de culoare ales, f(m,n) reprezint culoarea unui
pixel la locaia (m,n), iar M, N reprezint dimensiunea imaginii.
Pentru ca histograma sa aib o dimensiune ct mai scurt (lungimea maxim
poate fi 3x255) se recurge la discretizarea spaiului de culoare, iar apoi se numr de cte
ori o culoare discretizat se gsete n imagine. Pentru performane optime, trebuie ajuns
la un compromis ntre discretizare pe intervale mai mari sau pe intervale mai mici.
46
Intervale mari de discretizare vor genera pierderi de informaie de culoare, n timp de

intervale mici vor genera diferene mari ntre dou imagini apropiate prin coninut, dar
afectate de zgomot sau alte efecte (ex: iluminare, translaii, mici micari de scen). n
Figura 3.7 este prezentat variaia histogramei n cazul unor variaii de scen. Histograma
prezint proprieti interesante, deoarece este invariant la translaii i rotaii, sau micri
ale obiectelor din scen. n acelai timp, histogramele, pentru dou obiecte cu aspect
distinct, difer substanial, genernd un numr imens de posibile histograme (exponenial
pentru numrul de culori diferite dintr-o imagine). Histogramele de culoare sunt flexibil
de construit n diverse spaii de culoare i sunt uor de calculat, fiind necesar o simpl
parcurgere a imaginii.
Fig. 3.7 Ilustrare a variaia histogramei n cazul unor modificri minore de scen. Trei
imagini similare i histogramele acestora. Se observ c fundalul imaginii genereaz
diferene majore de histogram (surse imagini 10)
Principalul dezavantaj al histogramei este c nu ine cont de aranjarea spaial a

imaginii, ignornd textura i forma obiectului. Practic, nu exist metode de a distinge o
can alb cu albastru de o farfurie alb i cu dungi albastre. O alt problem a
histogramei este sensibilitatea acesteia la zgomot, cum ar fi efecte de iluminare sau la
erori de cuantizare.
3.1.3 Momente de culoare
Momentele de culoare determin gradul de apropiere dintre dou imagini, utiliznd

statistici ale culorilor coninute. Aceast metod pleac de la premiza c distribuia de
culoare dintr-o imagine poate fi interpretat ca o distribuie de probabilitate. Distribuia
probabilitii este caracterizat de un numr unic de momente. Prima utilizare a
momentelor de culoare a fost realizat de ctre Striker i Orengo [50]. Acetia au utilizat
10
http://www.imdb.com/
47
trei momente de culoare pentru fiecare canal din spaiul de culoare (medie, variaia
standard i skewness):
Momentul de ordin 1: media de ordin 1
(3.6)
unde reprezint culoarea de la locaia i, iar N numrul de pixeli din imagine.

Momentul de ordin 2: deviaia standard
( ) (3.7)
reprezint radacina ptrat a varianei distribuiei.

Momentul de ordin 3: Skewness
( ) (3.8)
poate fi neleas ca o msur a gradului de asimetrie a distribuiei.
3.1.4 Histograma Color Coherence Vectors
Pentru a msura distribuia spaial a culorii dintr-o imagine a fost propus un nou tip de
histogram n [51]. Aceast structur pleac de la premiza c un pixel din interiorul unei
regiuni uniforme trebuie interpretat diferit, fa de un pixel aflat ntr-o regiune de contur.
Practic, se vor calcula dou histograme: o histogram a pixelilor de tranzit i o
histogram a obiectelor uniforme. Histograma Color Coherence Vectors (CCV) previne
comparaia de pixeli care provin din regiuni incoerente cu pixeli din zone coerente de
culoare. Acest proces asigur o distincie fin ntre diverse tipuri de pixeli, ceea ce nu ar
fi fost posibil cu o histogram clasic de culoare. Algoritmul conine urmtorii pai de
calcul:
se aplic un filtru medie (blur) asupra imaginii, astfel nct micile variaii de culoare
ntre pixelii vecini s dispar;
se discretizeaz spaiul de culoare, astfel nct s avem n culori distincte;
se separ pixelii coereni de cei incoereni (dup diverse reguli) i se construiesc cele
dou histograme.
3.1.5 Histograma Fuzzy
Histograma clasic este un descriptor statistic global care msoar intensitatea distribuiei
pentru o imagine dat. Principalul ei avantaj este uurina manipulrii, ns este foarte
48
sensibil la trecerea unei culori dintr-un interval de eantionare n altul (efect ce apare des
din cauza iluminrii, schimbrii contratului etc). Pentru a rezolva aceast problem, au
fost propuse mai multe metode inspirate din logica fuzzy [52] [53]. Pentru histograma
color de tip fuzzy, culorile aflate n intervale de eantionare apropiate aparin ntr-o
anumit msur ambelor intervale, acestea fiind modelate dup o funcie de tip fuzzy.
3.1.6 Histograme augmentate i piramide spaiale
Metodele prezentate anterior nu rezolv problema spaial a distribuiei culorii n

interiorul imaginii. Pentru a rezolva aceast problem, au fost propuse diferite variante de
mprire a imaginii n regiuni spaiale. Dup ce imaginea a fost mprit, pentru fiecare
regiune n parte, este calculat un descriptor, genernd aa zisele histograme augmentate
sau piramide spaiale. Histograma se augmenteaz prin considerarea unor mrimi
suplimentare, cu caracter spaial: divizri ale spaiului imaginii, parametri de ponderare
[54] [55].
Fig. 3.8 Exemple de exemple de divizri ale spaiului suport al imaginii n vederea
calculului de histograme augmentate
Dup ce are loc mprirea imaginii n diverse pri componente, pentru fiecare
regiune se calculeaz un descriptor independent. n final, aceti descriptori vor fi agregai
ntr-un singur descriptor final. n cele mai multe cazuri, descriptorul final este alctuit
prin simpla concatenare a trsturilor descriptorilor. n [55] a fost propus un algoritm care
mparte imaginea ntr-un numr variabil de nivele de piramid spaial (Figura 3.9), iar
pentru calculul gradulului de similaritate dintre dou imagini a fost propus o funcie
nucleu.
Principalul dezavantaj al acestei metode se datoreaz sensibilitii la translaii i
rotaii.
49
Fig. 3.9 Schem ilustrativ a reprezentrii prin piramide (surs imagine [55]). O
piramid reprezint o colecie de trsturi calculate pe nite regiuni apriori definite. La
nivelul 0, imaginea este mprit ntr-o singur regiune, trstura acesteia
corespunznd descriptorului global al imaginii.
3.2 Descriptori de textur

Textura [43] reprezint un concept foarte vast, atribuit oricrei suprafee naturale. n
general, textura reprezint o structur de suprafa spaial repetitiv, format prin repetiia
de elemente n diverse poziii relative. Repetiia poate implica variaii locale de scal,
orientare i rotaie. Imaginile de textur sunt definite ca imagini naturale texturate,
mpreun cu abloane artificial create, ce pot fi asemntoare cu structurile reale.
Fig. 3.10 Exemple de texturi aparinnd bazei de date Vis Tex
Exist dou metode de descriere a texturilor [43]:

studiul determinist se refer la cutarea de structuri de baz care se repet n mod
spaial. Aceasta abordare corespunde unei viziuni macroscopice, ntlnit de altfel n
cazul rocilor, esturilor, sau a modelelor de tip mozaic. Elementul repetitiv de baz
poart numele de texton sau texel - texture element - (prin similaritate cu denumirea de
pixel).
50
abordarea statistic (probabilistic) se refer la studiul atributelor haotice i omogene n

acelai timp, care nu au legtur cu niciun element de baz localizabil (motiv), de nici o
frecven principal de repetiie.
Este aproape imposibil de descris texturile utiliznd cuvinte. Cu toate acestea,
putem descrie suprafee naturale, fiecare persoan definind anumite trsturi de aspect, ca
de exemplu: asprime, finee, granularitate, liniaritate, direcionalitate, rugozitate,
regularitate, nivel haotic. Aceste trsturi care definesc n principal aranjarea spaial a
texturilor constituente ajut la o descriere amnunit a proprietilor texturii, ns aceste
trsturi nu pot fi uor asociate cantitativ. n cele ce urmeaz, vom prezenta diferii
descriptori de textur.
3.2.1 Proprietile Tamura
Primele studii au fost efectuate de ctre H. Tamura, S. Mori i T. Yamawaki n 1978 [56].
Ei au definit ase trsturi principale care caracterizeaz o textur: asprimea (coarseness),
contrastul (contrast), direcionalitatea (directionality), asemnarea liniar (line-likeness),
regularitate(regularity) i rugozitatea (roughness). Iniial, pentru a selecta aceste trsturi,
au efectuat un studiu pe un numr de subieci, care au analizat diferite proprieti de
textur. Acetia au selectat proprietile care sunt relevante pentru descrierea coninutului
de textur. Odata selectate, au fost propuse reprezentri matematice pentru fiecare
proprietate.
Asprimea prezint o relaie direct cu scala i rata de repetiie. Aceasta a fost
prezentat de Tamura ca fiind caracteristica cea mai important a texturilor. Asprimea i
propune s identifice cea mai mare poriune dintr-o textur n care texelul este prezent.
Matematic, se calculeaz media n fiecare punct n jurul unor vecinti care reprezint
puteri ale lui 2. Media vecintii de mrime ntr-un punct (x,y) este egal cu:
(3.9)
unde k reprezint raza vecintii, f(i,j) este valoarea pixelului la locaia (i,j), iar (x,y) este
punctul n care se calculeaz .
Dup calculul acestor vecinti n fiecare punct din imagine, se calculeaz
diferena dintre media vecintilor calculate dup orientri verticale i orizontale:
( ) (3.10)
Pentru fiecare punct, se va calcula mrimea lui K pentru care E devine maxim.
Asprimea se va defini apoi utiliznd formula:
(3.11)
unde n dimensiunea imaginii iar .
51
Contrastul i propune s capteze gama dinamic a distribuiei nivelelor de gri

dintr-o imagine, mpreun cu distribuia de alb si negru. Formula de calcul a contrastului
este:
(3.12)

unde este momentul 4, iar reprezint variana valorilor pixelilor imaginii.
Direcionalitatea reprezint calculeaz gradul total de ordonare a texturii. Dou
mti simple sunt utilizate pentru a detecta marginile dintr-o imagine. Pentru fiecare pixel
este calculat unghiul muchiei, dup care este creat o histogram a marginilor, utiliznd
un prag pentru a identifica apartenena punctului la un tip de direcie. Marginile sunt
calculate utiliznd un filtru Sobel.
Apoi, direcionalitatea este calculat cu formula:
( ) (3.13)
unde np este numrul vrfurilor, este poziia celui de-al p-lea vrf, Wp este gama
unghiului atribuit celui de-al p-lea vrf, r reprezint un factor de normalizare, iar a
reprezint direcia.
Celelalte trei componente sunt strns legate de primele trei trsturi i nu aduc
noutate n descrierea texturii:
Rugozitatea se refer la variaiile tactile pe suprafaa fizic. O suprafa aspr
conine primitive angulare, n timp ce texturile netede conin primitive neclare (slab
delimitate). Formula de calcul este urmtoarea:
(3.14)
Regularitatea const n calculul gradului de variaie a texelilor. O textur regulat
este compus din primitive identice sau similare, aranjate ntr-un mod ordonat. O textur
neregulat este compus din diverse primitive, care sunt aezate n mod aleatoriu.
Formula de calcul a regularitii este urmtoarea:
(3.15)
unde r este un factor de normalizare (de obicei r = ) i reprezint gradul de
variaie a caracteristicii .
Asemnarea liniar este definit ca media direciilor unghiurilor ce apar n
perechi de pixeli, separai de o distan d.
3.2.2 Matricea de coocuren

Matricea de coocuren reprezint o statistic de ordin II a perechilor nivelelor de gri
dintr-o imagine. Aceasta calculeaz numrul de perechi de pixeli de anumite culori,
separate de o distan d, de-a lungul unei direcii a.
(3.16)
52
unde reprezint 2 culori, x poziia n cadrul imaginii.

n final, acest descriptor va fi o matrice M patrat, de dimensiune egal cu
numrul de valori posibile ale pixelilor.
Concepul de matrice de coocuren se poate aplica i pentru perechi de culori, nu
numai pentru imagini cu nivele de gri, utiliznd diverse nivele de cuantizare a spaiului
culorii. Dup calculul matricii de coocuren, sunt calculai diferii parametri statistici
cunoscui sub numele de Haralick [57]:
Contrastul:
(3.17)
unde reprezint valoarea intensitii pixelilor aflai la locaia (i,j), iar M i N

reprezint dimensiunile imaginii.
Corelaia:
(3.18)

unde , , ,

Entropia:
(3.19)
Energia:
(3.20)
Omogenitate:
(3.21)
Moment de ordin 3:
(3.22)
Variana invers:
(3.23)
Sum medie:
53
(3.24)
Variana:
[ ] (3.25)
Tendina clusterului:
(3.26)
3.2.3 Modele Markov Random Fields
Modelele Markov Random Fields (MRF) consider imaginea 2D ca un ir de scalari

(valori de nivele de gri) sau de vectori (culori), aflai ntr-o distribuie statistic [58]. Cu
alte cuvinte, semnalul fiecrui pixel este considerat a fi o variabil aleatoare. Fiecare
textur este caracterizat de o probabilitate de distribuie a semnalului, prin interaciunea
acestuia cu alte semnale (n cazul nostru, prin interaciunea pixelilor vecini). Modelul
Markov presupune c probabilitatea fiecrui pixel (x,y) este determinat printr-o
convoluie a pixelilor vecini. Aceste tehnici poart numele de modele auto-regresive
(simultaneous autoregressive - SAR), textura fiind reprezentat printr-o serie de
parametri de autoregresie:
(3.27)
unde w este independent (zgomot alb de medie 0 i varian 1) iar parametri a(m,n) sunt
specifici modelului SAR. Problema de baz a algoritmului const n metoda de gsire a
vecintii adecvate pentru calculul vecintii.
3.2.4 Corelograma
Corelograma este o matrice care grupeaz probabilitaile de a avea o pereche de pixeli de

valori specificate, separai de o distan fixat [59]. Pentru fiecare distan d, corelograma
va fi o matrice ptrat de dimensiune egal cu numrul de valori diferite posibile pentru
pixeli.
3.2.5 Matricea de izosegmente
Izosegmentele (run-length) reprezint o tehnic de extragere a caracteristicilor statistice

a texturii. Aceast tehnic a fost utilizat iniial de ctre Galloway [60] n 1975 i de ctre
Chu n 1990. Un izosegment de nivele de gri reprezint o mulime liniar de pixeli
consecutivi, avnd acelai nivel de gri, orientai pe o anumit direcie. Lungimea unui
54
izosegment este numrul de pixeli ce formeaz respectiva mulime. Matricea de

Iiosegmente (Gray Level Run Length Matrix - GLRLM) este o matrice m x n, unde m
reprezint numrul de lungini de izosegmente posibile iar n este numrul de nivele de gri
n care este cuantizat imaginea.
Numrul de nivele de gri din imagine va fi cuantizat. De obicei, aceasta se
cuantizeaz pe 16 nivele de gri. Gradul de cuantizare este esenial pentru performana
algoritmului.
Fie urmtoarele notaii:
p(i,j|) este al (i,j) - lea element al matricei de izosegmente pentru direcia
G numrul de nivele de gri
R cel mai lung izosegment
n numrul de pixeli din imagine
Galloway a introdus cinci trsturi statistice care pot fi extrase din matricea de
izosegmente:
plaja de izosegmente scurte (Short Run Emphasis)
(3.28)
prin mprirea fiecrui izosegment cu ptratul valorii acestuia sunt accentuate

izosegmentele de lungime mic
plaja de izosegmente lungi (Long Run Emphasis)
(3.29)
prin nmulirea fiecrui izosegment cu ptratul valorii acestuia, se accentueaz valoarea

izosegmentelor lungi
neuniformitatea nivelului de gri (Gray Level Non-Uniformity)
. / (3.30)
valorile mai mari ale izosegmentelor vor contribui mai mult la calculul acestei trsturi
neuniformitatea lungimilor plajelor (Run Length Non-Uniformity)
. / (3.31)
procentul de izosegmente (Run Percentage)
(3.32)
este raportul dintre numrul de izosegmente i numrul de pixeli ai regiunii.
55
Chu a introdus dou trsturi adiionale: Low Gray Level Emphasis (LGRE) i
High Gray Level Emphasis (HGRE):
(3.33)
(3.34)
Pentru simplificarea notaiilor se noteaz cu:
(3.35)
(3.36)
unde r reprezint numrul de izosegmente de lungime j i g este numrul de izosegmente

de culoare i.
Se definete S ca fiind numrul total de izosegmente din imagine:
(3.37)
ecuaia putnd fi scris n felul urmtor:
(3.38)
iar de aici toate formulele pot fi scrise n funcie de r i g:
(3.39)
. / (3.40)
( ) (3.41)
(3.42)
(3.43)
(3.44)
56
ceea ce nseamn c toate trsturile pot fi calculate fr a determina ntreaga matrice de

izosegmente. Este suficient calculul a dou iruri ( r[j] i g[i]).
3.2.6 Calcul n spaiu transformat
Transformrile reprezint o categorie de prelucrri ce includ operaii de tip integral, la

calculul noii valori a unui pixel al imaginii transformate contribuind valorile tuturor
pixelilor din imaginea original. Pentru o imagine ptrat I de dimensiune N, o
transformat unitar este de forma:
(3.45)
unde reprezint imaginea cu un singur pixel de culoare la locaia (k,l), iar V(k, l)
sunt coeficienii dezvoltrii n serie. O transformare unitar reprezint un operator
integral caracterizat prin faptul c valoarea fiecrui pixel din imaginea final depinde de
valorile tuturor pixelilor din imaginea pixelilor.
Transformatele unitare prezint anumite proprieti:
Energia semnalului se conserv printr-o transformare unitar;
Energia medie a semnalului se conserv printr-o transformare unitar;
Entropia unui vector cu componente aleatoare se conserv printr-o transformare
unitar:
( | ) ( | ) (3.46)
Coeficienii din spaiul transformatei sunt decorelai sau aproape decorelai.
Transformata optim, care compacteaz maximumul de energie ntr-un numr dat de
coeficieni i care n acelai timp decoreleaz complet, este transformarea Karhunen-
Loeve.
Transformata Fourier
Transformata Fourier se aplic unei funcii complexe i produce o alt funcie complex
care conine aceeai informaie ca funcia original, dar reorganizat dup frecvenele
componente. De exemplu, dac funcia iniial este un semnal dependent de timp,
transformata sa Fourier descompune semnalul dup frecven i produce un spectru al
acestuia. Acelai efect se obine dac funcia iniial are ca argument poziia ntr-un
spaiu uni sau multidimensional, caz n care transformata Fourier relev spectrul
frecvenelor spaiale care alctuiesc funcia de intrare.
n cazul prelucrarii de imagini, se utilizeaz transformata Fourier Discret
bidimensional unitar. Transformata Fourier bidimensional, pentru o imagine de
dimensiune NxN, se calculeaz cu formula urmtoare:
57
(3.47)
unde f(a,b) este imaginea n domeniul real, iar F(k,l) reprezint mediul transformat.
ntr-un mod similar, se calculeaz transformata Fourier invers:
(3.48)
Majoritatea implementrilor plaseaz media componentei continue a imaginii n

centrul acesteia, utiliznd proprietatea de periodicitate a transformatei Fourier.
Pentru descrierea coninutului de textur se va mpri imaginea n spaiul Fourier
i se va calcula energia total pe fiecare partiie. Un exemplu de mprire este prezentat
n Figura 3.11:
Fig. 3.11 Partiii de caracterizare a texturilor n domeniul spectral Fourier
Transformarea Gabor
Transformarea Gabor mbin avantajele transformatei Fourier (localizare bun n

frecven i orientare) cu avantajele localizrii bune n spaiul cartezian [61].
Reprezentrile frecvenei i orientrii filtrelor GABOR sunt similare cu cele ale
sistemului vizual uman. Transformarea 2D conine un nucleu gaussian modulat de o
sinusoid.
[ ] (3.49)
unde
* + * + (3.50)
3.2.7 Operatorul Localy Binary Patterns
Operatorul Localy Binary Patterns (LBP) a fost prima dat introdus de ctre Ojala [62].
Acesta eticheteaz pixelii unei imagini n valori binare, prin prguirea vecintii fiecrui
58
pixel. Datorit puterii discriminative mari i a simplitii computaionale, LBP a devenit

popular n diverse domenii din computer vision, ca de exemplu: descrierea texturilor,
recunoaterea de fee [63] i recunoaterea i clasificarea de obiecte [64]. Cea mai
important caracteristic a aoperatorului LBP se datoreaz invarianei acestuia la
schimbri de iluminare i scalare.
Versiunea iniial a operatorului LBP folosea vecintatea fiecrui pixel curent, de
obicei de dimensiune 3x3, ca apoi acesta s utilizeze diferite tipuri de vecinti sau
piramide spaiale.
Paii de calcul ai descriptorului sunt urmtorii:
- pentru fiecare pixel din imagine, se prguiesc valorile din vecintatea punctului n
funcie de valoarea pixelului central (Figura 3.12);
- pentru fiecare pixel ( ) se va calcula urmtorul parametru:
(3.51)
- se creeaz o histogram a valorilor ;

- se concateneaz histogramele n cazul n care se efectueaz un proces de binarizare la
mai multe scale ale imaginii.
Fig. 3.12 Schema de calcul a operatorului LBP
3.3 Descriptori de form

Forma este una dintre componentele eseniale n procesul de recunoatere i clasificare a
obiectelor. Aceasta reprezint descrierea geometric a unui obiect prin determinarea
frontierelor acestuia fa de obiectele din jur. Principalele caracteristici pe care
descriptorii de form trebuie s le conin sunt: caracterul compact (descriptorii trebuie s
extrag trsturile relevante i definitorii), invariana la scalare, rotaie, translaie i la
distorsiuni ale formei conturului.
Tehnicile de calcul ale descriptorilor de form se mpart n dou mari categorii:
descriptori de regiuni i descriptori de contur.
Descriptorii de regiuni utilizeaz aa numitele momente statistice, care
ncapsuleaz distribuia pixelilor n imaginea 2D a formei. Se pot descrie forme
59
complexe, compuse din mai multe regiuni deconectate sau din obiecte ce conin guri.
Aceste trsturi sunt rezistente la erori de segmentare a imaginilor sau la zgomot gen
sare i piper. Cei mai cunoscui algoritmi bazai pe regiuni sunt: momente geometrice,
momente Legendre, momente Zernike i momente pseudo-Zernike.
n schimb, algoritmii de descriere a formelor prin contur utilizeaz informaia
spaial extras din linia de contur a obiectului. Exemple de algoritmi de descriere a
formelor prin contur sunt: descriptorii Fourier de contur si algoritmii de aproximare
poligonial.
3.3.1 Momentele Hu
Iniial, pentru descrierea formelor, au fost propuse momentele spaiale. Pentru o imagine
binarizat, momentul spaial de ordin (m,n) este definit de formula:
(3.52)
unde { este imaginea binarizat, J i K reprezint numrul de

1 1
linii i de coloane ale imaginii, iar xk K i y k J j (originea este in partea
2 2
stanga-jos a imaginii).
Momentele spaiale au performane foarte slabe, deoarece sunt foarte sensibile la
schimbri de scal. Din acest motiv s-au definit momentele centrate:
(3.53)
unde i sunt coordonatele centroidului. Din momentele centrate vor fi extrase

momentele Hu [65].
Momentele lui Hu sunt invariante la schimbri de scal, la translaii i la rotaii.
3.3.2 Momente Zernike
Momentele Zernike au fost propuse pentru prima dat de ctre Teaque i utilizeaz
principiul polinoamelor ortogonale Zernike [66]. Poligoanele Zernike au fost utilizate
pentru prima dat n descrierea formelor 1990 [67]. Un polinom tipic Zernike este
exprimat de ctre formula:
(3.54)
unde R este baza radial ortogonal:
(3.55)
( ) ( )
60
unde m<=|n|, m-n este par

Pentru o funcie continu, momentul Zernike de ordin n va fi calculat utiliznd
formula:
(3.56)
n timp ce pentru o imagine digital formula este urmtoarea:

(3.57)
Momentele Zernike sunt invariante la rotaii i robuste la zgomot. De asemenea,

ele prezint o redundan scazut deoarece baza este ortogonal.
3.3.3 Descriptori Fourier de contur
Descriptorii Fourier de contur sunt obtinui prin aplicarea transformatei Fourier asupra
punctelor aflate pe conturul obiectelor [68]. Algoritmul de calcul al descriptorului conine
urmtorii pai:
se obin coordonatele de contur ale obiectelor
se calculeaz coordonatele centroidului acelui obiect i apoi distana dintre acesta
i contur utiliznd, distana euclidian
(3.58)
unde t = 0,1, N-1, iar i
se aplic transformata Fourier 1D asupra semnalului r(t):
( ) (3.59)
se calculeaz magnitudinea coeficien=ilor Fourier:

vectorul descriptor va fi format din urmtoarele valori:
3.3.4 Aproximare poligonal
Aproximarea poligonal este una dintre cele mai populare metode de reprezentare a
formelor. Ideea principal a algoritmului const n reprezentarea siluetei printr-un set de
segmente de dreapt. Mai precis, se elimin formele redundante i insignifiante. Metoda
caut punctele de contur i le elimin pe cele ale cror eroare ptratic are o valoare
minim. Exist dou tipuri de calcul utilizate n prezent: metoda evoluiei conturului [69]
i metoda deteciei de coluri utiliznd transformate wavelet [70]. Metoda evoluiei
conturului reduce influena zgomotului i simplific forma, eliminnd caracteristicile
irelevante ale formei. Iniial, forma este privit ca o iniruire de segmente de dreapt,
dup care perechile de segmente sunt comasate ntr-un singur segment.
61
Pentru a msura nivelul de relevan a unui segment de dreapt se utilizeaz

formula:
(3.60)
unde (s1, s2) reprezint unghiul dintre cele dou segmente, iar l(s) reprezint lungimea
segmentului normalizat la perimetrul formei.
Procesul nceteaz atunci cnd valoarea parametrului K este mai mare dect un
prag ales. Metoda evoluiei curbei pleac de la premiza c formele au diverse distorsiuni,
iar acestea trebuie nlturate printr-un process de netezire. Netezirea depinde foarte mult
i de alegerea pragului de lefuire. n final, fiecare poligon este reprezentat ca o funcie
tangenial (tangenta unghiului format de axa orizontal i segmentul de dreapt).
3.3.5 Histograma de orientare a gradienilor
Histograma de orientare a gradientilor (HOG) [71] este un descriptor utilizat pentru prima
data de ctre cercetatorii INRIA, Navneet Dalal i Bill Triggs. A fost propus n contextul
problemei de detecie de pietoni. Tehnica const n calculul apariiei de orientri de
gradient, localizate ntr-o anumit parte a imaginii.
Iniial, imaginea este mprit n regiuni spaiale mici (celule) care pot avea
diverse forme (radiale sau rectangulare). Pentru fiecare celul, se calculeaz o histogram
a direciilor gradienilor. Pentru imagini color, se vor calcula gradienii pe fiecare canal
de culoare independent (Lab sau RGB). Histogramele sunt ponderate n functie de
anumii parametri: magnitudine, ptratul magntudinii, prezena / absena muchiilor etc.
Pentru corectarea erorilor provocate de schimbarea iluminrii i zgomot, se efectueaz
anumite corecii pe fiecare bloc n parte: corecie de gam i egalizare de histogram.
Au fost propuse diverse extensii pentru histograma de orientare a gradienilor i
anume: histograma piramidal de orientare a gradienilor (Pyramidal HOG (PHOG) [72])
i histograma 3D de orientare a gradienilor (3D HOG [73]).
3.4 Puncte de interes

3.4.1 Introducere
n primele seciuni din acest capitol am prezentat algoritmi ce descriu informaia global
a unei imagini. ns, pentru probleme n care este necesar recunoaterea de obiecte,
aceti algoritmi ating o performan sczut, deoarece nu reuesc s extrag trsturile
care sunt caracteristice unui obiect. Practic, descriptorii globali nu separ informaia de
fundal de cea a obiectelor constituente. Din acest motiv, au fost propui o serie de
algoritmi care extrag punctele de interes ale obiectelor (keypoints). Mai exact, aceti
algoritmi extrag o serie de regiuni care conin informaie discriminatorie mai ridicat.
62
Apoi, fiecare punct de interes va fi descris cu ajutorul unui descriptor. i astfel, fiecare
imagine va fi descris de un set de descriptori. Punctele de interes reprezint regiuni bine
definite din spaiul imaginii, care au o valoare descriptiv ridicat. Odat extrase,
punctele de interes vor fi utilizate n procesri ulterioare. Punctele de interes au
proprietatea de a fi stabile n cazul anumitor perturbaii, ca se exemplu: rotaii, scalare,
distorsiuni geometrice, zgomot, variaii de iluminare.
Pentru a calcula gradul de similaritate dintre dou imagini este necesar s se
calculeze numrul de puncte de interes similare. Iniial, distana dintre dou puncte de
interes a fost calculat cu distana euclidian. Aceast metod este una intens
computaional, deoarece are complexitatea O(mnp), unde m i n reprezint numrul de
puncte de interes a celor dou imagini care sunt comparate, iar k este lungimea
descriptorului unui punct de interes. Din acest motiv, au aprut tehnici noi de aproximare
a similaritii, cea mai cunoscut dintre ele fiind algoritmul k-nearest neighbors [74].
Dup modul de aranjare spaial a punctelor cheie, algoritmii de extragere a
trsturilor locale se mpart n dou categorii: algoritmi care extrag puncte cheie la
intervale regulate din imagine (dense extraction extragere dens) (Figura 3.13 a) i
algoritmi care extrag numai regiunile cu zone proeminente, considerate a fi cu mai mult
informaie discriminatorie (Figura 3.13 b). Dintre aceste metode, nu exist o metod
preferenial n defavoarea celeilaltei, ambele abordri dovedindu-se eficiente n contexte
diferite. Mai precis, un algoritm de extracie dens a punctelor cheie poate obine
performane superioare n cazul n care informaia de fundal este foarte important. Spre
exemplu, n competiia Pascal, exist 20 de clase care sunt dependente de context:
avioanele apar de obicei n imagini cu nori, animalele sunt prezente ntr-un spaiu natural,
iar obiectele de mobilier sunt localizate n interiorul unor camere. La extracia dens,
calculul poziiei punctelor cheie este mult mai rapid, ns numrul de descriptori extras
este mult mai ridicat, ceea ce compeseaz timpul ctigat pentru extracie.
(a) (b)
Fig. 3.13 Exemple de metode de extragere a punctelor de interes: (a) extracie dens i
(b) extracie a regiunilor proeminente
63
3.4.2 Modelul SIFT
Transformata SIFT (Scale Invariant Feature Transform) a fost propus i patentat de

ctre David Lowe [75]. Aceasta se bazeaz pe extragerea de puncte cheie, pe baza
convoluiei unei imagini cu un set de nuclee gausiene:
(3.61)
unde (x,y) reprezint locaia pixelui curent, iar reprezint deviaia standard a nucleului
gausian.
Dup calculul convoluiilor, pentru fiecare se vor calcula diferenele acestor
convoluii la diferite scale pentru .
( ) (3.62)
(3.63)
unde k este un numr natural, I(x,y) reprezint imaginea cu nivele de gri.
Metoda extrage puncte de extrem, considerate a fi candidai n extragerea de
puncte cheie, utilizate n descrierea imaginii. Pentru fiecare punct, se va calcula
magnitudinea i orientarea gradientului utiliznd formulele urmtoare:
(3.64)
* + (3.65)
Se va crea o histogram de orientri i se vor reine acele valori maxime,
mpreun cu punctele care conin minim 80% din valoarea maxim gasit (eliminandu-se
astfel peste 95% din punctele extrase n procesul anterior).
Dup calculul extremelor, vor fi eliminate punctele cu contrast sczut i muchii
mai puin ieite n eviden. Punctele rmase reprezint punctele de interes ale imaginii.
Acestea sunt invariante la scalarea imaginii sau la adugarea diferitelor forme de zgomot.
Un descriptor al unui cuvnt cheie reprezintun vector cu 128 de dimensiuni (un byte
pentru fiecare trstur).
Un descriptor al unui punct cheie va fi calculat pe o vecintate de 16x16 pixeli.
Valorile de nivel de gri vor fi ponderate cu o fereastr gaussian, iar apoi aceas
vecintate va fi mprit n 4X4 subregiuni. Pentru fiecare subregiune, se va reine o
histogram de orientri.
Pentru mbuntirea vitezei algoritmului, a fost propus PCA-SIFT [76]. Acesta
aplic analiza componentelor principale (PCA) asupra vectorului descriptor a unui punct
de interes. Descriptorul va avea o dimensiune mult redus fa de a descriptorului SIFT
clasic (de la 128 la 20-36 dimensiuni), ceea ce duce la o cretere considerabil a vitezei
de comparaie dintre dou imagini. O alta extensie a SIFT este GLOH (Gradient
location-orientation histogram) [77], ce calculeaz descriptorii SIFT utiliznd
coordonate polare.
64
3.4.2 Modelul SURF
Algoritmul SURF (Speeded Up Robust Feature) reprezint un extractor de puncte de

interes robust i rapid, prezentat de catre Herbert Bay n 2006 [78]. Acesta a fost parial
inspirat din algoritmul SIFT. Autorii au demonstrat c acesta este de cteva ori mai rapid
dect versiunea standard de SIFT, iar n multe cazuri chiar mai robust n condiii similare
de zgomot.
Pentru calcularea punctelor de interes, SURF utilizeaz imaginea integral, o
structur de reprezentare a unei imagini care permite calculul rapid al intensitii din
diferite regiuni ale imaginii.
Iniial, imaginea este transformat n imagine integral, utiliznd urmtoarele
formule:

(3.66)
unde (x,y) reprezint poziia curent n cadrul imaginii.

Calculul imaginii integrale se poate face i n mod recursiv utiliznd formula:
(3.67)
unde i(x,y) reprezint valoarea pixelului aflat la poziia (x,y).
Pentru detecia punctelor cheie se utilizeaz matricea hessian, care este rapid
din punct de vedere computaional. Valoarea acesteia ntr-un punct I(x,y) este dat de
formula:
* + (3.68)
unde L(x,y,) reprezint filtrul laplacian de gausian (Laplacian of Gaussian).
Dimensiunea descriptorului SURF poate fi mai mic sau egal dect cea a
vectorului SIFT (64 sau 128 de numere de tip float).
3.4.3 Modelul Harris
Detecia de muchii cu detectorul Harris, reprezint o metod popular de extragere a a

colurilor i muchiilor dintr-o imagine [79]. Acesta este invariant la rotaie, scalare,
variaie de iluminare i zgomot de imagine. Algoritmul detectorului Harris se bazeaz pe
funcia de autocorelare local a semnalului definit n modul urmator:
(3.69)
unde w(x,y) reprezint fereastra de calcul a funciei de autocorelaie, reprezint

dimensiunea ferestrei, i(u,v) conime valoarea pixelului aflat la poziia (u,v), iar w(u,v)
poate fi o constant sau poate avea valori ponderate n funcie de distan (putnd lua o
form gausian):
65
(3.70)
Utiliznd dezvoltarea dup serie Taylor vom avea:

(3.71)
unde C(x,y) captureaz structura intensitii a vecintii punctului curent i repezint o
matrice de dimensiune 2x2:
(3.72)
unde i vor reprezenta gradienii calculai pe aceste axe.
Pentru a calcula valoarea muchiei se vor msura vectorii proprii ai matricei C.
(3.73)
unde i , iar k are o valoare apropiat de 0,04.
Vor fi luate n considerare urmtoarele trei aspecte:
1. dac , au valori mici, funcia de autocorelare va avea o valoare mic(mici
schimbri pe orice direcie), ceea ce inseamn c fereastra va avea o intensitate constant;
2. dac doar una dintre cele dou valori are o valoare mare indic faptul c
fereastra conine o margine;
3. dac ambele valori proprii au o valoare ridicat indic faptul c punctul va fi
clasificat ca i punct de interes.
Dup calculul parametrului R pe fiecare fereastra se vor reine regiunile care
conin o valoare R mai mare dect un prag. Pentru fiecare regiune se va selecta o valoare
maxim local.
Ali algoritmi n detectia de puncte cheie sunt: MSER (Maximally Stable
Extremal Region Detector) [80], detectorul STAR [81], detectorul FAST [82], GOOD
(Good Features to Track) [83] i SUSAN [84].
3.4.4 Reprezentarea Bag of Visual Words
Modelul Bag of Words (BoW) reprezint un algoritm utilizat pentru prima dat n
clasificarea documentelor text [85]. n cadrul acestui model, se selecteaz un set de
cuvinte reprezentive, numit vocabular, iar apoi pentru fiecare document text se creeaz
o histogram de apariie a cuvintelor. Aceste histograme sunt apoi clasificate cu ajutorul
unor algoritmi de clasificare. Plecnd de la acest algoritm de baz, modelul BoW a fost
transferat n diverse domenii de computer vision: clasificare de imagini [86], documente
audio [87] i video, clasificarea i recunoaterea de aciuni [88].
n cele ce urmeaz, vom prezenta modelul BoW pentru clasificarea imaginilor.
Ideea principal const n faptul c punctele cheie dintr-o imagine (keypoints) sunt
considerate a fi similare cuvintelor din documentele text. Vectorul descriptor va conine o
histograma de apariie a cuvintelor dintr-o imagine, dup care aceste histograme vor fi
66
clasificate cu ajutorul unor clasificatori. Noul algoritm poart numele de Bag of Visual-
Words (BoVW) [86]. n acelai timp, algoritmul BoVW este inspirat din sistemul uman
de recunoatere a formelor. O persoan poate recunoate anumite obiecte chiar dac
vizualizeaz numai anumite pri componente ale obiectului.
Antrenarea algoritmului BoVW conine patru pai principali: extragerea de
cuvinte vizuale dintr-un set extins de imagini, crearea vocabularului de cuvinte vizuale,
calculul de histograme de cuvinte i antrenarea unui clasificator. Schema de antrenare a
unui sistem BoVW este prezentat n Figura 3.14. Iniial, se extrag cuvintele cheie dintr-o
imagine utilizand diveri algoritmi: SURF, SIFT, HARRIS etc. Aceste puncte cheie sunt
adugate ntr-un vector de cuvinte cheie. Apoi, se va reduce numrul de cuvinte cheie
prin utilizarea anumitor algoritmi de clusterizare: kmeans, clusterizare ierarhic, cam-
shift etc. Fiecare centroid rezultat va fi considerat un cuvnt dintr-un vocabular de
cuvinte vizuale.
Numrul cuvintelor din vocabular difer n funcie de aplicaie de la cateva mii
[89], pn la sute de mii [90], [91]. Generarea unui dicionar vizual reprezint un proces
foarte costisitor. Din acest motiv, au fost propuse metode n care vocabularul de cuvinte
vizuale este generat n mod artificial. n [91] s-a demonstrat c, n cazul n care
dimensiunea vocabularului este suficient de mare (ordinul zecilor de mii), impactul
alegerii modalitii de selecie a vocabularului devine mai puin important.
Fig. 3.14 Procesul de antrenare n cadrul algoritmului Bag of Words
Urmtorul pas este reprezentat de generarea histogramelor de cuvinte vizuale.

Pentru calculul descriptorilor se vor efectua urmtorii pai:
- pentru fiecare imagine din baza de date se vor extrage cuvintele cheie i se va calcula
distana minim dintre acestea i cuvintele din dicionar;
- fiecare cuvant cheie va fi atribuit unui cluster din dicionar, pe baza unui criteriu de
similaritate maxim. De cele mai multe ori msura de similaritate se calculeaz cu
distana euclidian;
- se va creea o histogram de apariie a cuvintelor din dictionar.
67
Dup generarea descriptorului de va utiliza un algoritm de clasificare. Cele mai

utilizate tehnici de clasificare sunt SVM [86] i Nave Bayes [86]. Alte metode de
clasificare utilizate sunt: Probabilistic Latent Semantic Analysis (pLSA) [92] [93]i
Latent Dirichlet Allocation (LDA) [94] [95].
Principalele avantaje ale modelului Bag of Words sunt invariana la scalri, rotaii
i translaii (nu conteaz aranjarea spaial a cuvintelor vizuale ntr-o imagine), prezint
performane bune chiar dac apar ocluziuni pariale ale obiectelor i este intuitiv (datorit
analogiei cu clasificarea de documente text i a similitudinii cu modul uman de
recunoatere a obiectelor).
Fig. 3.15 Procesul de clasificare n cadrul algoritmului Bag of Words
Principalele neajunsuri ale algoritmilor Bag of Words sunt:

- nu exist nici o metod riguroas de reprezentare a obiectelor componente, a
distribuiei spaiale dintre anumite perechi de cuvinte dintr-un document;
- segmentarea i localizarea componentelor este neclar;
- exist multe cuvinte care nu sunt relevante;
- procesul de cuantizare a cuvintelor genereaz zgomot de cuantizare;
- costul computaional crete odat cu dimensiunea vocabularului de cuvinte.
Pentru a rezolva aceste neajunsuri au fost propuse mai multe modificri la
modelul clasic BoVW. Pentru a incapsula informaia spaial a obiectelor, au fost propuse
diverse metode de corelare a localizrii cuvintelor: corelograma de aparitie [96], sau
diferite metode de corelaie dintre componente [97], [98]. De asemeni, pentru eliminarea
zgomotului de cuantizare au fost propui algorimi ce utilizeaz distana Earth Mover [30]
sau Fisher Kernel [99]. n [100], au fost propuse diferite modaliti n vederea creterii
vitezei de calcul.
68
3.5 Descriptori MPEG 7
3.5.1 Standardul MPEG 7
MPEG 7 reprezint un standard ISO/IEC dezvoltat de catre MPEG (Moving Picture

Experts Group), organizaia care s-a ocupat i de standardele anterioare: MPEG 1, MPEG
2 i MPEG 4. MPEG-1 si MPEG-2 sunt cele care o facut posibil ca informaia video s
fie disponibil pe CD-ROM sau n televiziunea digital (formatele: Video CD, MP3,
digital audio broadcasting (DAB), DVD, televiziune digital: DVB and ATSC), n timp
ce MPEG-4 a dezvoltat standardul de integrare multimedia n tehnologii mobile
(formatele: H.264, VRML, AAC).
Standardul MPEG 7 a fost dezvoltat deoarece era nevoie de metode i tehnici de
indexare i descriere a coninutului multimedia. Acesta propune diferii algoritmi pentru
descrierea coninutului vizual. MPEG 7 propune trei clase de descriptori vizuali: de
culoare, de textur i de form.
3.5.2 Descriptori de culoare
Descriptorul Color Histogram Descriptor
Descriptorul Color Histogram Descriptor (CHD) [47] propune descrierea coninutului

de culoare cu ajutorul unor histograme de culoare. Standardul conine un set bine definit
de spaii de culoare care pot fi utilizate: nivele de gri, RGB, YcbCr, HSV. De asemeni,
este propus un nou spaiu de culoare HMMD (mai multe detalii n Seciunea 3.2.1).
Pentru fiecare spaiu de culoare sunt definite metode de cuantizare a culorii.
Descriptorul Color Structure Descriptor
Descriptorul Color Structure Descriptor (CSD) [47] incapsuleaz structura local a

culorii ntr-o imagine. Acest descriptor numr de cte ori o culoare particular este
coninut ntr-un element structurant care scaneaz imaginea. CSD prezint ct de
adunat este o anume culoare, dac exist sau nu pete mari dintr-o anumit culoare. n
cazul n care o culoare este aplicat n pete de dimensiuni mai mari, aceast va avea o
pondere semnificativ mai mare dect culorile aflate n regiuni cu variaii mari de culoare.
Practic, culorile aflate n interiorul regiunile mate (obiectelor) vor avea o pondere mai
ridicat. Spaiul de culoare folosit de acest descriptor este HMMD. Color Structure
Descriptor utilizeaz patru tipuri de cuantizare: 184, 120, 64 i 32 de intervale. Pentru a
construi o histogram de 184 intervale, HMMD este cuantizat neuniform i mpartit n
cinci subspaii.
69
Pentu a calcula dimensiunea elementului structurant se utilizeaz urmtoarele

formule:
p = max(0,round(0.5*Log(width*height,2)-8));
k = Pow(2, p);
E = 8 k;
unde W, H sunt dimensiunile imaginii, ExE reprezint dimensiunea elementului
structurant iar K este factorul de multiplicare.
Spre exemplu, n cazul n care imaginea are dimensiunea 640x480, vom avea p =
1, k = 2 i E = 16. n cazul n care elementul structurant ar avea dimensiuni mai mici de
8x8, dimensiunea dimensiunea acestuia va fi fixat la aceast valoare.
Descriptorul Dominant Color Descriptor
Acest descriptor [47] este util n reprezentarea obiectelor i a regiunilor din imagine, unde
un numr redus de culori este necesar pentru descrierea regiunii de interes. Imaginea este
mprit pe mai multe regiuni i sunt extrase un numr redus de culori pentru fiecare
regiune n parte. Acest descriptor arat n acelai timp i gradul de coeren a culorii din
imagine.
Culorile dintr-o regiune dat sunt clusterizate ntr-un numr redus de culori.
Descriptorul va conine culorile reprezentative, procentajul i variana acestora. Pentru
msurarea distanelor este definit o distana ptratic dintre histograme. De asemeni
culorile pot fi indexate direct n spaiul 3D. Pentru cutarea similaritii se vor cuta
imaginile cu regiuni similare. La final descriptorul calculat va avea urmtoarea structur:
{ } (3.74)
unde c, p i v reprezint culoarea dominant, procentajul i variana, iar s este un
parametru de calcul a omogenitii totale a culorii.
Numrul de culori dominante variaz de la o imagine la alta i un numr de
maxim 8 culori sunt utilizate pentru reprezentarea unei regiuni. Metoda de clusterizare a
culorii este bazat pe algoritmul de clusterizare a lui Loyd [1], al crui principiu este cel
de minimizare al erorii din fiecare cluster:
(3.75)
unde este centrul centroidului , x(i) culoarea pixelului din regiune, pondere a
pixelului curent (valoare mai mare pentru regiuni texturate dect pentru regiuni neclare
(blurate)).
Fie doi descriptori de culoare:
{ } (3.76)
{ } (3.77)
Distana dintre cei doi descriptori va fi calculat cu formula:
70
(3.78)
unde , -
| |- distana dintr cele dou culori i valoarea maxim a distanei dintre

dou culori.
Descriptorul Color Layer Descriptor
Color Layer Descriptor [47] a fost creeat pentru a reine distribuia spaial a culorii dintr-
o imagine, acesta putnd fi interpretat ca o schi a imaginii. Codarea are doi pai:
transformarea imaginii n form dreptunghiular cuantizat (64 de blocuri)
cuantizarea cu ajutorul tranformatei DCT.
Transformata DCT, n special tipul bidimensional, este foarte utilizat n studiul
sunetului i al imaginilor, n special pentru algoritmii de compresie. Transformata DCT
beneficiaz de o excelent capacitate de concentrare a energiei: informaia unui semnal
fizic tipic este repartizat n principal pe coeficienii corespunznd armonicelor de joas
frecven (statistic vorbind). Pentru imaginile naturale, DCT este transformata care se
apropie cel mai mult de transformata Karhunen-Love care ofer o decorelaie optimal
ntre coeficienii reprezentrii unui semnal markovian. Din punct de vedere practic,
procedeele de compresie pleac de la ipoteza ca o imagine natural poate fi modelat ca
fiind rezultatul unui proces markovian i aproximeaz transformata Karhunen-Love,
prea complex din punct de vedere algoritmic i dependent de date, cu o DCT.
[ ( ) ] (3.79)
Doar un numr mic de coeficieni sunt ne-nuli, i pot fi utilizai pentru

reconstruirea imaginii iniiale prin transformata invers (IDCT) cu ocazia decompresiei.
Reducerea volumului datelor compresate vine din suprimarea coeficientilor nuli sau
aproape nuli corespunznd frecvenelor nalte, aparatul vizual uman fiind foarte puin
sensibil la aceste elemente spectrale ale imaginii (corespunznd, de exemplu, unei zone
cu contururi foarte fine dintr-o imagine), deci reproducerea exact a acestor elemente nu
este esenial pentru calitatea imaginii. Acest tip de mecanism este utilizat n standardele
JPEG i MPEG, care aplic o DCT 2D pe blocuri de pixeli de talie 8x8.
Spaiul de culoare utilizat este YCrCb. Pentru a compara doi descriptori se
utilizeaz formula de mai jos:
(3.80)
71
Numrul recomandat de bii de codare pentru descriptor este de 13. Acesta

include ase coeficienti pentru Y i cte trei coeficieni pentru Cr i Cb.
3.5.3 Descriptori de textur
Descriptorul Texture Browsing Descriptor
Acest descriptor [47] implementeaz trei dintre cei ase descriptori de textur Tamura,
prezentai anterior n cadrul capitolului 3.2.1. Trsturile implementate sunt: asprimea,
contrastul i direcionalitatea.
Descriptorul Edge Histogram Descriptor
Histograma marginilor [47] capteaz distibuia spaial a muchiilor din interiorul unei
imagini. Distribuia marginilor este o bun semnatur de textur i este util n cutarea
de imagini. Calculul descriptorului este uor de realizat: marginile sunt grupate n cinci
categorii: verticale, orizontale, diagonala 135, diagonala 145 i izotropic, iar pentru
fiecare tip de margine vom avea un interval ntr-o histogram de muchii. Imaginea va fi
mprit n 16 imagini (4x4), fiecare histogram avnd cinci intervale, de unde vom avea
5x16 = 80 intervale. Procedeul poate continua printr-o mparire mai detaliat a imaginii.
Procedeul de mprire n subblocuri este prezentat n figura urmtoare:
Fig. 3.16 Imprirea imaginii iniiale pentru descriptorul Edge Histogram
Pentru a calcula histogramele de muchii pentru fiecare 16 subimagini, fiecare bloc

va fi mprit n blocuri mai mici (la fel pentru fiecare imagine indiferent de dimensiunea
imaginii). Detectoarele de margini vor fi aplicate fiecrei subimagini sub forma unei
ferestre 2x2. n fiecare subdiviziune de subimagine se va reine media intensittii
pixelilor. Detectorul de margini va parcurge subimaginile cu ajutorul celor 5 fereste
prezente n Figura 3.17.
72
Fig. 3.17 Exemple de ferestrele detectoare de muchii
Dup calculul muchiilor se va aplica un prag pentru eliminarea variaiilor fine, se

calculeaz histogramele de margini, dup care valorile se cuantizeaz n intervalul [0, 1].
3.5.4 Descriptori de form
MPEG 7 conine trei descriptori de form: descriptor de regiune, descriptor de contur i

descriptor de forme 3D. Descriptorul de regiune utilizeaz un set de funcii numite ART
(Angular Radial Transform) care compun o transformat 2D. Acesta ofer o metod
compact i eficient de descriere a unei forme n spatiul 2D. Funciile ART [101]
reprezint o transformat unitar definit n coordonate polare. Coeficientul de ordin
(m,n) este calculat utiliznd urmatoarea formul:
(3.81)
unde f este imaginea n coordonate polare iar este funcia ART:
(3.82)
iar
(3.83)
{ (3.84)
n MPEG 7 sunt utilizate un set de 12 funcii angulare i 3 funcii radiale (n<3 i
m<12). Familia de funcii ART prezint anumite avantaje. Acestea sunt capabile s
descrie forme complexe care conin zone necompactate, fiind robuste la zgomotul de
segmentare. De asemenea, dimensiunea acestora este redus i prezint o vitez de calcul
ridicat.
Descriptorul de contur utilizat de ctre standardul MPEG 7 este Curvature Scale
Space [102]. Reprezentarea Curvature Scale Space este bazat pe reinerea poziiei
punctelor de inflexiune de pe contur, filtrate de o funcie trece-jos gausian gausian
[103]. Metoda este similar cu tehnica de aproximare polinomial, descris n capitolul
anterior. Primul pas este calculul conturului suprafetei (x(t), y(t)). Apoi se normalizeaz
conturul la un numr finit de puncte de margine. Ca i la aproximarea polinomial se
calculeaz o funcie pentru fiecare punct care exprim gradul de importan a punctului
respectiv

(3.85)

73
3.6 Descriptori de micare

Detecia micrii reprezint procesul de recunoatere a schimbrii poziiei a unor obiecte
relativ la o vecintate a acestora. Primele sisteme de detecie a micrii aveau ncorporate
diferite componente mecanice sau electronice i au fost folosite pentru rezolvarea unor
probleme de securitate. Mai nou, odat cu apariia necesitii de analiz i interpretare a
coninutului multimedia, au aprut diferii algoritmi de detecie a formei de micare.
Dup modul de intepretare a scenei, analiza micrii se poate mpri n dou perspective
diferite: (1) aceasta poate fi efectuat la nivel global, la nivel de cadru sau segment video
[104] sau (2) la nivel local, prin analiza micrii la nivel de obiect [105].
n mod tradiional, analiza micrii globale este efectuat cu ajutorul tehnicilor de
detecie a fluxului optic. Pentru estimarea acestuia, de obicei se admit anumite
simplificri ale problemei. n acest sens, se ia n considerare faptul c intensitatea
luminoas a fiecrui pixel este constant de-a lungul traiectoriei micrii sau se modific
ntr-un mod predictibil. Mai mult, micarea este lin, obiectele deplasndu-se ncet de la
un cadru la altul. Principiul clasic de estimare a fluxului optic const n determinarea
deplasrii unor pixeli sau a unui bloc de pixeli, ntre dou imagini succesive ale
secvenei, pe baza minimizrii variaiei intensitii acestora.
Pentru a exprima matematic aceast ipotez, se utilizeaz ecuaia de diferen
dintre imaginile deplasate (Displaced Frame Difference - DFD), i anume ntre
momentele la care se estimeaz fluxul optic t i :
( ) (3.86)
unde (x,y) reprezint poziia pixelului sau a blocului de pixeli n imaginea analizat,
este vectorul de deplasare ntre momentele t i , iar I(x,y,t) reprezint funcia
de intensitate la poziia (x,y) n momentul t.
Pentru a calcula ecuaia DFD, n literatur au fost propuse mai multe tehnici
[106]: metodele difereniale (se bazeaz pe rezolvarea matematic a ecuaiilor existente
din fluxul optic), metode parametrice (modeleaz deplasarea pixelilor n imagine folosind
o serie de parametri), algoritmi stohastici (utilizeaz modele probabilistice de estimare:
Bayesiene, Markov sau algoritmi genetici) i metode bazate pe blocuri de pixeli
(utilizeaz un set de simplificri a calculelor de estimare). Acestea din urm folosesc
ipoteza de simplificare, conform creia dimensiunea micrii este limitat n timp, iar
cutarea direciei de micare poate fi micorat doar la o zon a imaginii curente, numit
fereastr de cutare (Figura 3.18). Informaia obinut de la un singur pixel nu este
suficient de discriminatoare pentru a asigura potriviri unice, iar din acest motiv se va
efectua presupunerea suplimentar conform creia toi pixelii vecini dintr-un bloc au
aceeai micare. n acest sens, se va calcula cmpul vectorial de micare la nivel de
regiuni de pixeli, astfel furniznd un vector de deplasare pentru fiecare dintre acestea.
Toate aceste tehnici prezentate anterior ns nu sunt eficiente pentru clasificarea i
intepretarea unor micri complexe, cum ar fi intepretarea de aciuni umane. Mai mult,
74
apar diferite probleme specifice recunoaterii de obiecte: variaia unghiului de vizualizare

i a luminozitii, ocluziuni, dimensiunea obiectelelor din cadrul filmului care prezint
diferite scale. De asemenea, trebuie specificate i alte probleme specifice care pot aprea:
micarea camerei, zgomotul de imagine, schimbri de fundal, dar i faptul ca anumite
aciuni pot fi foarte similare ca i form a micrii (ex: aciunile de a bea sau de a mnca).
Fig. 3.18 Principiul de estimare pe blocuri de pixeli a micrii
n acest sens, au fost propuse o serie de metode care intepreteaz noiunea de

micare la nivel local. n [105] a fost propus una dintre primele metode de detecie a
punctelor de interes de micare. Pentru detecia punctelor de interes spaio-temporale,
este utilizat algoritmul lui Harris. Apoi, principiul algoritmului este asemntor cu cel al
BoW: se genereaz un dicionar de puncte spaio-temporale, iar fiecare micare este
descris cu ajutorul acestui dicionar. n final, aceste trsturi sunt utilizate pentru
antrenarea unui clasificator.
Pentru descrierea punctelor de interes spaio-temporale au fost propuse diferite
metode. Un prim algoritm propune mprirea punctelor de interes n volume spaio-
temporale [107] (Figura 3.19), iar pentru fiecare volum se calculeaz o histogram de
trsturi HOF i HOG. Alte metode de extracie a punctelor de interes spaio-temporale
propuse utilizeaz: algoritmul SIFT 3D [108] sau GIST 3D [109]. Pentru clasificare, au
fost propui diferii algoritm, i anume: AdaBoost [105], SVM [109] sau diferite forme
de fuziune probabilistic [108].
75
Fig. 3.19 Ilustrare a mpririi spaio-temporale a documentului video: (a) fr

mprire, (b) mprire spaial, (c) mprire spaial i (d) mprire spaio-temporal
Modelul Bag of Words utilizat n aceste metode prezint anumite avantaje foarte
importante, acesta fiind robust la zgomot sau la ocluziuni. ns, n ciuda popularitii sale,
algoritmul BoW prezint anumite neajunsuri evidente. n primul rnd, reprezentarea
BoW utilizeaz descriptori de nivel sczut pentru descrierea unor informaii cu un nivel
semantic ridicat. n al doilea rnd, relaia spaial dintre punctele de micare este ignorat
n totalitate. Mai mult, prin procesul de creare a dicionarului, iar apoi prin asocierea
unui punct de interes la un cuvnt din dicionar, se creeaz un zgomot de cuantizare care
genereaz o pierdere major de informaie.
Pentru a evita aceste probleme, n ultimii ani au fost propui diferii algoritmi care
utilizeaz detecia de pri componente ale corpului [110]. Apoi, pentru fiecare parte
component a corpului este descris micarea acestuia, iar n final, aceste componente
vor fi concatenate i se va construi un descriptor agregat.
3.7 Descriptori audio

Oamenii clasific semnalele audio cu o mare uurin. Recunoaterea unei anumite voci
la telefon, distincia anumitor semnale specifice (sunetul unui claxon sau a unei melodii
anume) sunt lucruri fireti pentru fiecare persoan. ns, probleme pot aprea atunci cnd
puterea semnalului este slab sau este forma similar cu a unui alt semnal. De exemplu,
este dificil s distingem paii pentru dou persoane sau sunetul dintre dou motoare.
Astfel, se pot distinge dou mari clase de aplicaii, n care detecia de sunet poate juca un
rol important.
O prim aplicaie este recunoaterea i clasificarea de semnale audio uor de
intrepretat de om: clasificare sunet dup gen, recunoatere automat a vorbirii,
recunoatere de sunete specifice. Aceti algoritmi ar ajuta la indexarea automat a
coninutului multimedia existent. Pe de alt parte, a doua aplicaie este cea de
recunoatere a semnalelor care nu pot fi interpretate de ctre om. Spre exemplu, n
domeniul medical este nevoie de aparatur care s intepreteze automat sunetele emise de
aparatul respirator uman.
76
(a) (b)
Fig. 3.20 Modaliti de mprire a semnalului audio: (a) mprire n frameuri i (b)
mprire cu ajutorul ferestrelor
Schema clasic de calcul a unui descriptor de semnal audio este prezentat n

Figura 3.21. Iniial, este extras amplitudinea semnalului audio. Fiecare semnal audio
poate fi considerat o funcie continu de amplitudini (sau mai multe amplitudini pe mai
multe canale), care este cuantizat pe un numr finit de secvene discrete. De obicei,
semnalul audio este eantionat n intervalul 15-60 kHz.
Primul pas n cadrul schemei de calcul a unui descriptor audio const n
mprirea documentului audio n blocuri de dimensiune egal, denumite cadre audio.
Acestea au o lungime standard de cteva zeci de milisecunde secunde (10 - 30 ms). De
obicei, dou cadre consecutive au o poriune comun egal cu 50% din lungimea unui
frame. Cadrele trebuie s fie suficient de mici astfel nct s poat fi considerate semnale
staionare (ale cror statistic nu se schimb), adic frecvena rmne constant n cadrul
unui frame. O alt modalitate de mprire a semnalului audio este prin intermediul
ferestrelor. Ferestrele reprezint funcii matematice care au valoarea zero n afara unui
interval specific. Apoi, semnalul audio este nmulit cu funcia de fereastr care va fi
translatat n mod succesiv asupra semnalului.
Fig. 3.21 Schema general a unui sistem de clasificare de semnale audio.
n cazul n care considerm fereastra ca o funcie rectangular, un cadru va fi

echivalent cu un bloc audio extras de o fereastr. Cea mai utilizat funcie este fereastra
Hamming:
77
( )
{ (3.87)
unde M reprezint lungimea ferestrei iar .

Pasul doi const n calculul descriptorilor per bloc. Acetia pot fi calculai n
mediu transformat (ex: transformata Short-Time Fourier STFT) sau direct asupra
semnalului audio. Urmeaz apoi un pas de antrenare cu un clasificator.
n continuare, vom prezenta un set cu cei mai importani descriptori audio, i
anume: descriptorul Short Time Energy, frecvena fundamental Pitch, descriptorul
Zero Crosing-Rate i coeficienii Mel-frequency cepstral.
Descriptorul Short Time Energy

Principala utilizare a acestei funcii este de a separa segmentele nonverbale de
cele verbale. Acestea sunt foarte utile mai ales n mediile cu zgomot ridicat, deoarece
semnalele de zgomot au aceast proprietate mult mai redus dect semnalele vocale.
Pentru un bloc m de lungime N, acesta poate fi definit n felul urmtor:
(3.85)
unde x() este semnalul audio iar w() reprezint funcia fereastr Hamming.
Descriptorul Zero Cross rate

Descriptorul Zero Cross rate (rata trecerilor prin zero - ZCR) [111] este definit
ca numrul de ori n care semnalul sonor i schimb sensul ntr-o fereastr de
dimensiune dat:
(3.86)
unde { , N reprezint lungimea blocului m al semnalului audio, x()

este semnalul audio, iar w() reprezint funcia fereastr Hamming.
Aceste prime dou trsturi sunt foarte eficiente n distingerea poriunilor din
semnalul sonor n care este prezent sau absent voce uman. Astfel, poriunile de voce
sunt caracterizate de valori mari ale energiei i rate joase ale trecerilor prin zero, n timp
ce regiunile fr voce prezint valori inverse.
Autocorelaia
Autocorelaia calculeaz gradul de corelare ntre coeficienii aflai n cadrul
aceluiai cadru, utiliznd formula de urmtoare:
(3.87)
78
Alte trssturi care pot fi extrase din blocuri de semnal audio sunt:
Energia [111]:
(3.88)
Aplatizarea spectral (Spectral Platness) [111]:

( )
(3.89)

Fluxul spectral [111]:

(3.90)

Variaia spectral [111]:

(3.91)

Scderea spectral (Spectral decrease):
(3.92)

Frecvena fundamental Pitch
Frecvena fundamental este o trstur foarte important pentru analiza audio, n
special n recunoaterea vocii umane i reprezint frecvena principal a unui semnal
audio complex.
Coeficienii Mel-frequency cepstral
Coeficienii Mel-Frequency Cepstral (MFCCs) reprezint o tehnic des ntlnit
n procesarea semnalului vocal [112]. A fost folosit prima data pentru clasificarea
semnalului vocal de ctre [113], ca apoi s devin un standard pentru clasificarea de
documente audio [114] .
Algoritmul de calcul a coeficienlor MFCC conine urmtorii pai:
- fiecare cadru este multiplicat cu o fereastr Hamming;
- pentru fiecare frame se aplic transformata Fourier Discret (STFT). Se rein doar
valorile absolute ale frecvenelor pentru fiecare bin. Valorile de faz nu se rein
deoarece urechea uman este mai puin sensibil la componenta de faz fa de cea a
magnitudinii [115];
- valorile frecvenelor sunt mapate pe scara Mel. Aceast scar modeleaz sistemul
auditiv uman, care presupune o scar liniar pn la 1000 Hz, ca apoi aceasta s
devin logaritmic [116]. De asemenea, transformarea Mel este utilizat pentru
reducerea dimensionalitii: n frecvena normal numrul de valori posibile pentru
79
spectru este n intervalul [256, 1024], iar acestea sunt mapate pe un numr redus de
bande Mel. Acest lucru are o justificare biologic, urechea uman distinge numai
cteva frecvene numite benzi critice [117];
- se aplic transformata cosinus i se rein primele conponente ale transformrii;
- deoarece MFCC nu sunt foarte robuti la zgomotul aditiv, se aplic diferite strategii
de normalizare.
Dup calculul trsturilor pe fiecare bloc n parte, este nevoie de o metod de
agregare a acestora ntr-un singur descriptor. O prim abordare care trebuie luat n
considerare este agregarea acestora prin utilizarea mediei i dispersiei acestora, sau a
altor parametri statistici [118]. Alte metode utilizeaz modelul Bag-of-Words [87] sau
distana Earth Mover [30].
Ultimul bloc al unui sistem de clasificare audio este cel de antrenare i clasificare
a sistemului. n literatur, au fost folosii diferii algoritmi, de la utilizarea clasificatorului
SVM [119] [120], Nearest Neighbor [120] i a modelului Hidden Markov Model [114]
pn la hri cu autoorganizare [121].
n prezent, informaia audio reprezint o component important a multor aplicaii
multimedia. Ca tendin general a sistemelor existente, se poate meniona faptul c
informaia audio este folosit cu predilecie pentru caracterizarea coninutului specific de
gen a documentelor video sau audio i pentru detecia anumitor particulariti specifice
(de exemplu, detecia de violen). Este un lucru tiut c anumite genuri de film / muzic
conin o semntur audio specific: documentarele utilizeaz un amestec de sunete
naturale i monologuri, sporturile au n componen monologurile prezentatorilor sau un
anumit zgomot de fond al telespectatorilor, n timp ce emisiunile politice conin dialoguri
ntre diverse persoane. Totui, n domeniul indexrii dup coninut a documentelor
multimedia, metodele bazate exclusiv pe audio sunt foarte puine. Acest lucru se
datoreaz, n principal, faptului c informaia audio, analizat individual, nu conine
sucient putere discriminatorie pentru a oferi o caracterizare global a coninutului. Din
aceast cauz, n marea majoritate a metodelor de analiz existente, informaia audio este
folosit prin fuziune cu alte canale informaionale (vizual sau cea textual).
3.8 Descriptori de text

Clasificarea de text reprezint sarcina de a atribui n mod automat un set de documente la
o list predefinit de categorii. Problema deteciei i a clasificrii documentelor text
reprezint un domeniu de cercetare foarte important deoarece o mare parte din informaia
web existent n momentul de fa se gsete n format text: pota electronic, site-urile
web, tiri RSS feed, baze de date i librrii digitale.
Printre aplicaiile acestui domeniu putem enumera: indexarea automat a
documentelor librriilor digitale, diseminarea selectiv a informaiei pentru utilizatori n
funcie de anumite interogri, crearea de cataloage ierarhice automate pentru coninutul
80
web, filtrarea mesajelor spam, identificarea categoriei unui document i chiar rezumarea
automat a coninutului. Domeniul de adnotare automat a textului este unul atractiv
deoarece elibereaz companiile de nevoia de a organiza documentele n mod manual,
ceea ce poate fi un proces costisitor sau nerealizabil datorit constrngerilor de timp a
aplicaiei sau a numrului de documente implicate. n prezent, acurateea sistemelor de
clasificare de text actuale rivalizeaz chiar i cu metodele de adnotare manual. n cadrul
acestui capitol voi trata arhitectura general a unui sistem de clasificare de text.
Un sistem clasic de detecie i clasificare a textului conine trei pai principali:
preprocesarea, extragerea de trsturi i antrenarea unui sistem de clasificare. Schema
general este prezentat n Figura 3.22.
Preprocesarea
De obicei, modulul de preprocesare conine urmtorii pai: eliminarea marcajelor

existente, a cuvintelor nerelevante, extragerea rdcinii cuvintelor i crearea dicionarului
de termeni.
Iniial, se elimin diferitele marcaje care exist n cadrul textului, precum
elementele HTML, dac este cazul, sau semnele de punctuaie. Apoi, urmeaz pasul de
normalizare i extragere a rdcinii cuvintelor. Acesta const n transformarea cuvintelor
ntr-un format similar, astfel nct aceiai termeni, dar cu forme sintactice diferite, s
poat fi considerai identici. Mai nti, toate cuvintele sunt transformate n litere mici, iar
apoi se elimin toate sufixele i prefixele termenilor, proces cunoscut sub termenul de
stemming. Spre exemplu, daca avem cuvintele experimentelor i experimentele,
acestea vor fi reduse la rdcina lor comun, i anume experiment. Cel mai cunoscut
algoritm de stemming este algoritmul lui Porter [122], ce prezint implementri pentru
diferite limbi de circulaie internaional.
De obicei, limbajele conin un numr redus de cuvinte cu o frecven de apariie
ridicat, un set mai mare de termini cu o frecven medie i un numr foarte mare de
cuvinte care sunt utilizate rar. Cuvintele cu un grad nalt de apariie nu sunt
discriminative pentru a clasifica un document dintr-o clas n alta, deci nu sunt
folositoare. n schimb, termenii cu frecven de apariie sczut, dei sunt foarte
indicativi vor fi de puine ori gsii n seturile de antrenare. Un prim pas este eliminarea
cuvintelor din vocabular cu un grad ridicat de apariie (ex: este, merge, cauz,
unu, departe, i, cu, pe etc). Acest proces este cunoscut sub denumirea de
stop-word. Una dintre cele mai utilizate liste de cuvinte care trebuie eliminate este setul
SMART stop, propus de ctre MIT. De asemenea, vor fi eliminai i termenii cu
frecven de apariie redus, proces ce poart numele de Document Frequency
Thresholding. Aceast tehnic elimin cuvintele care apar doar ntr-un singur document.
81
Fig. 3.22 Schema general a unui sistem de clasificare de text
n urma filtrrii, se vor extrage un set de termeni ce vor compune un vocabular V,

care va sta la baza calculrii de trsturi.
Extragerea de trsturi de text
Majoritatea trsturilor de text extrase reprezint vectori de cuvinte care au asociate un

set de ponderi. Lungimea descriptorilor text va fi dat de numrul de termeni selectai n
pasul anterior. De obicei, lungimea trsturilor textuale este de cteva mii, n funcie de
dimensiunea vocabularului.
n continuare, vom considera descriptorul } pentru documentul i, n
dimensiunea vocabularului, iar , ponderile asociate fiecrui cuvnt existent n
documentul i. Cele mai importante sturi de reprezentri utilizate n literatur sunt:
Reprezentarea binar sau boolean vectorul va conine valoarea 0 dac
termenul respectiv nu apare n document i 1 n caz contrar.
Reprezentarea Term Frequency (TF) [123] - n vectorul de intrare sunt
ponderate valorile n funcie de frecvena apariiei termenului n documentul
respectiv:
(3.93)
unde f(t,d) este frecvena apariiei al termenului t n documentul d, reprezint
toi termenii pe care i conine documentul d, k ia valori n intervalul [1..n], iar funcia
max() reprezint frecvena maxim de apariie a unui termen.
Reprezentarea Term Frequency normalizat:
(3.94)
Reprezentarea Bag of Words - reprezint o histogram de apariie a cuvintelor.
82
(3.95)
unde funcia sum() reprezint suma frecvenelor de apariie a documentului.
Reprezentarea logaritmic [123]: frecvena este scalat pe o scar logaritmic:
{ (3.96)
Reprezentarea Invers Document Frequency (IDF) [123] valorile sunt
ponderate n funcie de frecvena apariiei termenului n colecia de documente:
(3.97)
Reprezentarea Term Frequency Invers Document Frequency (TF-IDF)
[123]:
(3.98)
Reprezentarea TFC [124]: utilizeaz formula TF-IDF, ns este adugat o
mprire a magnitudinii vectorului documentului interogat. Acest lucru
normalizeaz scorul fiecrui cuvnt din fiecare articol, eliminnd astfel efectele
diferenelor legate de lungimea distinct a acestora.
(3.99)

Reprezentarea LTC [125]: reprezint o form modificat pe o scar logaritmic a
reprezentrii TFC:
(3.100)

Reprezentarea entropic: reprezint o form mai sofisticat de ponderare:
( [ ( )]) (3.101)
Aceste reprezentri au i anumite limitri. Documentele de lungime ridicat sunt

slab reprezentate, deoarece pot conine un numr redus de termeni reprezentativi, aceast
limitare putnd fi parial eliminat cu ajutorul normalizrilor. O alt limitare este
reprezentat de sensibilitatea semantic: documentele utilizate ntr-un context similar, dar
care conin termeni din vocabular diferii, nu vor putea fi asociate, ceea ce va genera un
numr ridicat de rezultate fals negative. De asemenea, prin reprezentrile prezentate
anterior ordinea de apariie a termenilor n document este pierdut. Mai mult,
dimensiunea spaiului trsturilor este foarte mare, iar algoritmii clasici de antrenare au
probleme datorit paradigmei de dimensionalitate. Pentru rezolvarea acestei probleme, o
prim abordare utilizat este reducerea dimensionalitii prin detecia trsturilor care au
cea mai mare variaie. Variante de algoritmi de reducere a dimensionalitii propui
pentru sistemele de clasificare de text sunt PCA i MDS [126].
83
Clasificarea trsturilor de text
n ceea ce privete ultimul bloc al unui sistem de clasificare de text, au fost propui mai
muli algoritmi de antrenare i clasificare. O prim abordare folosit este cea a
algoritmilor statistici, n special Nave Bayes [127]. Clasificatorii text Nave Bayes se
disting prin vitez, acuratee mare de clasificare i simplitatea implementrii. Acesta a
fost folosit cu succes att n probleme de categorizare, ct mai ales n aplicaii de filtrare
a mesajelor de tip spam.
Un alt algoritm de clasificare utilizat este Nearest Neighbor (KNN). Pentru o
interogare, acesta folosete media distanelor cosinus dintre documentul de interogare i
documentele din baza de antrenare. Documentul va fi atribuit clasei la care distana medie
calculat are valoare minim. SVM este un alt exemplu de clasificator care lucreaz
eficient pentru clasificarea documentelor text [128]. Acesta poate manipula seturi mari de
date, neseparabile liniar. Algoritmul SVM construiete o funcie de mapare direct ntre
mulimea termenilor i variabilele de clas din cadrul etapei de antrenare. Apoi, acesta
construiete un hiperplan de separaie ntre documentele de antrenare ce aparin unor
clase diferite. Ali algoritmi utilizai pentru clasificarea documentelor text sunt LDA,
reele neurale i arbori de decizie [126].
Domeniul de clasificare i regsire a documentelor web are o istorie de peste 40
de ani. n ultimii ani, s-a intensificat activitatea de cercetare privind construcia semantic
unei arhitecturi de web, adic informaia despre coninutul web este stocat la un nivel
superior, iar acesta va sta la baza viitoarelor sisteme de cutare a coninutului paginilor
web. n acest moment, clasificarea documentelor web asigur o acuratee mare pentru
extragerea automat a sensului semantic a paginilor web, iar aceste informaii pot fi
utilizate pentru a genera o ierarhie ontologic a datelor web.
3.9 Concluzii
n acest capitol am discutat diversele modalitai de analiz i caracterizare a coninutului
multimedia. O prim component de descriere a trsturilor este canalul vizual, care
cuprinde informaia de culoare, form, puncte de interes i micare. Culoarea este cea mai
expresiv dintre toate componentele vizuale de culoare. Un rol important n analiza de
culoare l are spaiul de reprezentare al culorilor folosit. Acesta trebuie selectat astfel
nct s pun n eviden anumite proprieti caracteristice problemei. Astfel, spaiile de
culoare evolueaz de la reprezentrile clasice precum RGB (utilizat de ctre majoritatea
dispozitivelor hardware), pn la cele inspirate de sistemul vizual uman (HSV, Lab,
HMMD), astfel nct acesta s reflecte nivelul semantic de descriere universal, precum
spaiul Color Naming.
Pe de alt parte, descrierea informaiei de textur caracterizeaz anumite aspecte
de structur ale suprafeelor, precum: asprimea, contrastul, direcionalitatea, asemnarea
84
liniar, regularitatea i rugozitatea. De cele mai multe ori, trsturile de textur se

realizeaz prin interpretarea valorilor pixelilor ca realizri ale unor procese aleatoare
corelate. Acestea pot fi descrise sub forma unor distribuii de caracteristici (contrastul,
corelaia, entropia, omogenitatea, variana, energia) n domeniul spaial al imaginii sau n
domeniul de frecven (Fourier, Gabor).
Caracteristica de form reprezint o component esenial n procesul de
recunoatere i clasificare a obiectelor. Aceasta conine descrierea geometric a unui
obiect prin determinarea frontierelor acestuia fa de obiectele din jur. Descriptorul de
form trebuie s fie invariant, obiectele trebuind s fie recunoscute indiferent de poziie,
dimensiune i orientare. Dup modul de interpretare a conceptului de form, descriptorii
se mpart n dou mari categorii: descriptori de regiuni, care utilizeaz momente statistice
i descriptori care utilizeaz informaia de contur.
Punctele de interes reprezint forme geometrice cu o poziie bine definit i pot fi
viguros detectate. De obicei, detectoarele punctelor de interes extrag coluri, maxime sau
minime locale din regiuni de imagini care pot fi reprezentative pentru descrierea obiectelor.
Acestea trebuie s fie invariante la schimbri de luminozitte, translaie, rotaie sau la alte
transformri.
Evoluia temporal a informaiei vizuale sau informaia de micare este una dintre
particularitile fundamentale ale documentelor video. Metodele existente folosesc ca
punct de plecare pentru analiz estimarea cmpului de micare al pixelilor din imagine,
denumit i flux optic. Pornind de la problematica estimrii micrii la nivel de pixel, n
acest capitol am descris principalele direcii de studiu abordate de metodele de analiz i
caracterizare a micrii.
Informaia audio reprezint o component de baz pentru multe aplicaii
multimedia. n general, descriptorii audio se calculeaz n domeniul timp sau frecven pe
uniti fixe, denumite blocuri sau cadre audio. Aceste trsturi se agreg ntr-un singur
descriptor final, care va fi utilizat ntr-un proces de antrenare. Dei aplicaiile n care
informaia audio este utilizat individual sunt puine, aceasta este de foarte multe ori util
n multe probleme, prin fuziunea acesteia cu alte canale informaionale.
Studiul clasificrii bazelor de date de text reprezint unul dintre cele mai
importante domenii de cercetare din ultimii 40 de ani. n prezent, o mare parte din
informaia web existent poate fi accesat n format text: de la pota electronic, la site-
urile web i librriile digitale. n cadrul acestui capitol am trecut n revist principalele
metode de descriere a informaiei textuale: Bag of Words i TF-IDF.
Global, tendina de evoluie a sistemele actuale de indexare dup coninut este
spre descrierea semantic automat a coninutului datelor, n scopul simplificrii
problematicii de accesare a informaiei multimedia. Dei paradigma semantic nu a fost
nlturat complet, evoluia sistemelor a fost remarcabil n ultimii ani.
85
86
Capitolul 4
Algoritmi de Relevance Feedback

4.1 Conceptul de Relevance Feedback
Relevance Feedback (RF) reprezint un mecanism interactiv de nvaare online a
preferinelor utilizatorului i are scopul de a mbunti performanele de indexare ale
sistemelor multimedia. Metodele de relevance feedback reprezint un domeniu intens
studiat n ultimii ani, reprezentnd o alternativ viabil pentru mbuntirea cutrii n
sistemele multimedia multimodale [129].
Mecanismul prin care funcioneaz un algoritm de relevance feedback este
urmtorul: utilizatorul selecteaz un document / concept care va folosi ca interogare
pentru sistem. Sistemul va returna un o list iniial de documente, ordonate pe baza unui
criteriu inial de similaritate. Utilizatorul va selecta documentele care sunt relevante
pentru cutarea sa, iar sistemul i va reformula interogarea pe baza feedback-ului
utilizatorului. Apoi, sistemul va afia o nou list de documente. n cazul n care
utilizatorul nu este mulumit de noile rezultate oferite, are posiblitatea de a genera o nou
antrenare a sistemului, prin acordarea unei noi sesiuni de feedback.
Dup modul n care se preia feedback-ul, algoritmii de relevance feedback se
mpart n trei categorii principale: relevance feedback clasic (sau feedback explicit -
mecanism descris n paragraful anterior), pseudo-relevance feedback (cunoscut i ca
blind relevance feedback), i relevance feedback indirect (global)
Pseudo-relevance feedback [130] reprezint o metod n care relaia cu
utilizatorul este simulat automat. Acest lucru presupune c trsturile utilizate pentru
descrierea documentelor sunt suficient de bune astfel nct sistemul s poat returna n
primele documente afiate un numr ridicat de rezultate relevante. Iniial, pe baza
interogrii iniiale a utilizatorului, se genereaz o cutare n baza de date, iar apoi
sistemul presupune c primele k documente sunt relevante pentru utilizator. Pe baza
primelor rezultate returnate, urmeaz un proces de reantrenare a sistemului. Fiecare
document va primi un nou scor pe baza rspunsului sistemului.
Succesul unei astfel de strategii depinde foarte mult de gradul de adevr al
presupunerii efectuate. n cazul n care presupunerea este adevarat, experimentele au
artat c tehnica de pseudo-feedback mbuntaeste considerabil performanele sistemului
[130] [131] [132]. Totui, situaiile negative sunt foarte des ntlnite i conduc la o
scdere considerabil a preciziei, cu fiecare iteraie de relevance feedback.
87
Relevance feedback indirect [130] utilizeaz surse indirecte de feedback, i anume

sistemul poate utiliza informaia despre documentele pe care utilizatori diferii le-au
accesat n cutrile unor documente cu coninut asemntor. Acesta este mai puin
eficient dect feedback-ul explicit [133], ns mai util i corect dect tehnicile de pseudo-
feedback, care nu conin n nici o msur feedback real preluat de la utilizator. Feedback-
ul implicit poate fi stocat cu uurin n sistemele cu volume mari de date, ca de exemplu
motoarele de cutare. Aceast idee a fost implementat pentru prima data de ctre
sistemul DirectHit [134], iar n prezent este utilizat de ctre cele mai importante motoare
de cutare de text. Principalul avantaj al feedback-ului implicit este faptul c utilizatorul
nu mai este nevoit s acorde feedback. Aceste tehnici rein istoricul interaciunii
utilizator-sistem, i utiliznd anumite principii, genereaz automat un feedback i
reantreneaz sistemul. Feedback-ul implicit este utilizat n cutarea i filtrarea informaiei
pentru diverse categorii cum ar fi: hiperlinkuri, documente web, emailuri, articole de tiri,
filme, cri, programe TV etc [135].
Dup perioada n care se execut procesul de antrenare al sistemului, algoritmii de
RF se mpart n dou categorii: antrenare cu termen scurt de nvare (short-term
relevance feedback) i antrenare pe termen lung de nvare (long-term relevance
feedback).
Antrenarea cu termen scurt de nvare utilizeaz doar feedback-ul acordat n
sesiunea curent, iar pentru acest proces de nvaare utilizeaz doar vectorul descriptor al
documentului. Aceti algoritmi nu utilizeaz feedback-ul preluat anterior de ctre sistem.
Aceast clas de algoritmi este cea mai des studiat. Algoritmii de relevance feedback cu
antrenare cu termen scurt de nvare se mpart la rndul lor n patru mari categorii:
- algoritmi de mutare a punctului de interogare;
- algoritmi de determinare a importanei trsturilor;
- algoritmi statistici;
- algoritmi care privesc procesul de relevance feedback ca o problem de clasificare a
dou clase: documente pozitive i documente negative.
Principalele provocri pe care algoritmiii de relevance feedback cu termen scurt

de nvare trebuie s le aib n vedere sunt:
- numrul documentelor pe care se acord feedback este mult mai mic dect spaiul
descriptorilor. Acest aspect genereaz aa numitul fenomen de paradigm a
dimensionalitii (curse of dimensionality) [136];
- dezechilibru n modul de acorda feedback ntre utilizatori diferii. Doi utilizatori
diferii pot avea percepii separate asupra acelorai concepte (senzorial gap). Un alt
motiv care genereaz acest aspect este diferena dintre utilizatori: userii care cunosc
mecanismul intern al unui sistem de indexare dup coninut vor aprecia mai bine ce
trebuie s selecteze;
88
- dezechilibru ntre numrul de documente pozitive i negative. De cele mai multe ori
numrul de documente relevante este foarte mic, iar sistemul se afl n imposibilitatea
de a nva. Aceeai problem apare i atunci cnd nu exist documente nerelevante;
- viteza algoritmului (sistemul trebuie s rspund n timp real).
nvarea de lunga durat (Long-Term Learning) [137], poate realiza
performane superioare fa de tehnicile tradiionale de relevance feedback. Avantajul
acestor algoritmi este c nltur problemele de dezechilibru de acordare a feedback-ului,
prin utilizarea feedback-ului preluat n sesiuni anterioare de ctre utilizatori diferii.
Feedback-ul este stocat de cele mai multe ori n fiiere de loguri, i prezint o structur
asemntoare unor matrici de relaie ntre documente. De obicei, dimensiunea matricei
este una ridicat. Din acest motiv, multe metode propuse utilizeaz algoritmi de reducere
a dimensiunii matricei de loguri, utiliznd de exemplu analiza componentelor principale,
sau alte metode statistice.
Principalele limitri ale unui astfel de sistem sunt:
- algoritmii sunt greu de implementat pe sisteme n care documentele sunt frecvent
adugate sau terse;
- performana depinde mult de cantitatea de feedback anterior stocat. De preferat n
acest caz ar fi o combinaie ntre o strategie de invaare de lung durat cu una de
scurt durat;
- neomogenitatea feedback-ului acordat (nu toate imaginile din baza de date primesc
feedback). O implementare care incearc s elimine problema se gasete n [138];
- procesul trebuie realizat n sisteme real-time i s prelucreze volume mari de date ale
unui numr mare de utilizatori, cu un numr ridicat de elemente semantice. Fiecare
proces presupune o reantrenare a sistemului pentru noile cutari care vor urma. Din
acest punct de vedere este necesar mprirea bazei de date n ierarhii arborescente.
4.2 Metode de Relevance Feedback existente

4.2.1 Algoritmi de schimbare a punctului de interogare
Primii algoritmi de relevance feedback au fost utilizai pentru mbuntirea cutrii de

documente text (Rocchio [139]). Algorimul lui Rocchio utilizeaz setul de R documente
relevante i setul de N documente nerelevante, selectate n procesul de feedback de ctre
utilizator, pentru a redefini un nou punct de interogare, conform formulei urmtoare:
(4.1)
unde reprezint interogarea iniial, iar reprezint parametru pentru ponderarea

interogrii iniiale, reprezint factorul de importan al exemplelor pozitive, indic
factorul de importan al exemplelor nerelevante, i reprezint descriptorii
89
documentelor relevante, respectiv a celor nerelevante, iar . De obicei, aceti

parametri iau valori intevalul [0,1]. n Figura 4.1 este prezentat o reprezentare grafic
intuitiv a principiului lui Rocchio. Prima imagine ilustreaz punctul iniial de interogare
i direcia de deplasare a noului punct de interogare. Imaginea a doua prezint rezultatele
obinute cu noul punct de interogare.
Fig. 4.1 Ilustraie a algorimului lui Rocchio (punctul de interogare este mutat spre
centroidul clasei cutate)
Exist multe variante ale algorimului lui Rocchio. n [1] se demonstreaz c

rezultate mbuntite se obin utiliznd urmtoarele valori: = 0.25 i = 0.75.
Motivaia este una simpl, i anume, influena documentelor pozitive este mult mai
important dect cea a documentelor negative (< ). Din acest motiv, exist i propuneri
de algoritmi n care doar feedback-ul pozitiv este luat n considerare, ceea ce este
echivalent cu = 0. Alte variante de algoritmi, asemntori cu algoritmul propus de
Rocchio, au fost propui de ctre ctre Ide n [140] i [141]. Noile puncte de interogare
sunt calculate utiliznd formulele urmtoare:
(4.2)
(4.3)
unde reprezint interogarea iniial, iar i reprezint descriptorii documentelor

relevante, respectiv a celor nerelevante, iar max( ) reprezint descriptorul documentului
nerelevant cu distana cea mai mic fa de punctul de interogare.
Pentru cutarea de documente text, au fost propuse alte metode de ctre Harper i
Van Rijsbergen [142]:
( ) (4.4)
unde i
90
i de ctre Yu, i Salton:
( ) (4.5)
unde i
r indic numrul de documente relevante care conin termenul iar i reprezint
numrul de documente relevante / nerelevante care conin termenul , R i N sunt
numrul de documente relevante, respectiv nerelevante pentru interogarea Q.
4.2.2 Algoritmi de estimare a importanei trsturilor
Algoritmii de estimare a importanei trsturilor (Feature Relevance Estimation - FRE)

[129] pleac de la premiza c, pentru o interogare dat, n funcie de feedback-ul
utilizatorului, anumite componente ale vectorului descriptor pot fi mai relevante dect
altele. Iniial, s-a propus adnotarea manual de ctre utilizatori a importanei fiecrei
componente n parte. Acest proces este ns chiar cu mult mai anevoios dect alocarea de
cuvinte cheie, presupunnd cunotine avansate de inteligen computaional din partea
utilizatorului. De aceea, a aprut nevoia unui algoritm care s calculeze automat aceste
ponderi, utiliznd feedback-ul utilizatorului.
Iniial, fiecare component a vectorului descriptor va avea un factor de relevan
, care apoi se va modifica n funcie de feedback-ul acordat. Dup aplicarea
feedback-ului i antrenarea ponderilor, distana dintre dou documente va deveni egal cu
o metric euclidian ponderat:

(4.6)

unde i reprezint descriptorii celor dou documente, iar
sunt ponderile care sunt aplicate fiecrei trsturi n parte.
Fig. 4.2 Ilustraie a algorimulor de Relevance Feedback cu estimare a importanei

trsturilor
91
Prin modificarea ponderilor asociate unui termen individual al descriptorului,

nseamn c, n spaiul descriptorilor, suprafaa selectat de ctre interogareva fi
modificat dintr-o sfer ntr-un elipsoid, aa cum sugereaz Figura 4.2. Rui i Huang au
propus n [143], ca gradul de importan al unei trsturi s fie calculat n funcie de
dispersia trsturilor. O trstur cu grad de importan ridicat, va tinde s aib o valoare
constant pentru fiecare document, n timp ce, pentru o trstur nerelevant pentru
conceptul cutat, va avea valori ntr-un interval extins. Calculul ponderii va fi calculat
conform formulei:
(4.7)
unde reprezint dispersia trsturii aflate pe poziia i n cadrul documentelor
considerate relevante.
Un alt algoritm este prezentat n [144]. Aici, fiecare trstur va avea o pondere
proporional cu:
(4.8)
unde este numarul de documente relevante returnate atunci cnd efectum o interogare
doar cu trstura i, iar T este numrul total de imagini relevante.
Salton i Buckley [131] au propus urmtoarea formul de ponderare:
( )
(4.9)
( ) ( )
unde tf reprezint frecvena apariie a trsturii i, reprezint numrul de documente
relevante care conin termenul iar N este numrul de documente relevante pentru
interogarea Q.
Aceast ultim metod a fost propus n contextul cutrii de documente text.
ns, n documentele vizuale / audio / video nu avem rat de apariie a cuvintelor. Pentru
a putea adapta aceast metod la alte tipuri de documente, se poate aproxima fiecare
trstur cu anumite distriburii distribuii (exemplu distribuie gausian):
( )
( ) (4.10)

unde i indic media trsturii respectiv variana trsturii i, iar reprezint
valoarea trsturii documentului curent pe poziia i i .
O ultim variant de ponderare a fost propus de ctre Robertson i Spark Jones
n [1]:
(4.11)
92
unde r reprezint numrul de documente relevante pentru interogarea curent, care conin
elementul i, R este numrul total de documente relevante pentru interogare, n numrul de
documente care conin elementul i, N numrul total de documente din baza de date
4.2.3 Algoritmi statistici
Strategiile lui Bayes [145] sunt utilizate n scopul de a determina probabilitatea

apartenenei evenimentelor i a obiectelor la o anumita grup, minimiznd riscul
prognozat. n prima parte a acestui capitol vom prezenta algoritmul clasic Naive Bayes,
ca apoi s descriem algoritmii de relevance feedback care utilizeaz aceti algoritmi
statistici.
Fie {, , P} un spaiu de probabilitate, B un eveniment arbitrar din E i { ,
.. } o partiie a spaiului . Fie:
(4.12)

unde P(B)>0, , i = 1..n, reprezint probabilitate posterioar,
este probabilitate aprioric, reprezint verosimilitatea iar P(B) este evidena.
Fie regula de decizie referitoare la clasa . Regula de decizie va fi: alege
dac P(j|x) > P(i|x), i {1, , j-1, j+1, .r} sau echivalent P(x|j) P(j) > P(x| )
P( ) ), i {1, , j-1, j+1, .r}.
Presupunem c fiecare document este reprezentat de un vector de caracteristici
{ } aparinnd clasei . Pentru a clasifica corect un document ctre clasa ,
trebuie s indeplinim condiia ca P( | .. ) s fie maxim.
Algoritmul Nave Bayes cuprinde urmtorii pai:
1) Se calculeaz probabilitile posterioare P(i| ) pentru clasele utiliznd
formula:
( | )
(4.13)
2) Se alege apoi clasa j care maximizeaz P( | ) P( ). Pentru uurina
modelului matematic, se presupune c fiecare atribut este independent de cellalte
atribute:
( | ) (4.14)
3) Vom estima probabilitile P(Ak| ) pentru toate atributele Ak i clasele , astfel
nct un obiect nou, necunoscut, va fi clasificat n clasa , dac probabilitatea
corespunztoare acestei clase este maxim fa de cellalte.
Exist dou tipuri de variabile pentru care se calculeaz aceste probabiliti: prin
utilizarea de tipuri de date de tip enumerare i a tipurilor de date numerice.
Pentru coloane cu date de tip enumerare alegem:
93
(4.15)
unde | | reprezint numrul instanelor n care atributul aparine clasei .
Cea mai frecvent situaie este aceea n care atributele vectorului au valori
numerice. n acest caz, se aproximeaz c variabilele iau forma unor anumite distribuii,
calculate cu urmtoarele formule:
( | ) ( ) (4.16)

unde reprezint media iar deviaia standard a unei distribuii normale, iar acestea
respect relaiile:
( )
( | ) . / (4.17)

unde reprezint parametru de scal iar parametrul de form a unei distribuii log-
normale i .
( )
( | ) ( ) (4.18)
unde b reprezint un parametru de scal iar c este parametrul de form a unei distribuii
Gamma i
( | ) (4.19)
unde indic media unei distribuii Poisson, iar .
De asemenea, n funcie de aceast abordare, se pot schimba i formulele de
calcul ale probabilitilor de verosimilitate:
Numeroase tehnici de relevance feedback utilizeaz teoria bayesian. Prima, si

poate cea mai cunoscut, este sistemul PicHunter dezvoltat de Cox si Miller [146].
Pentru a determina imaginea int, sunt utilizate urmtoarele informaii:
istoria cutrilor anterioare: Ht = {D1,A1 Dn, An} unde D1..K reprezint imaginile
afiate la momentul k iar A1..k sunt aciunile desfurate asupra documentelor
(relevante/nerelevante).
userul U care efectueaz cutarea
Probabilitatea fiecrei imagini din baza de date este calculat utiliznd formula lui
Bayes:
(4.20)
( | )
unde P(T=Ti) reprezint probabilitatea aprioric i este de obicei egala cu 1/numrul de
imagini din baza de date, reprezint verosimilitatea calculat cu formula:
94
(4.21)

Un alt sistem care utilizeaz Nave Bayes n relevance feedback este BALAS
[147]. Algoritmul lui Bayes este utilizat n procesul de separare dintre imaginile alese
relevante si nerelevante. Probabilitile posteriori pentru ca o imagine s fie relevant sau
nerelevant se vor defini ca:
(4.22)
(4.23)
unde P(R) + P(I) = 1 reprezint probabilitile apriori (calculate pentru imaginile crora
li se acord feedback ) iar sunt verosimilitile. Imaginea Imgi este descris
de un descriptor de lungime , deci va deveni:
(4.24)
fiecare component fiind apoi calculat asemeni unor variabile aleatoare ce aparin unor
distribuii gausiene:
( | ) ( ) (4.25)

unde i
n cazul n care dispersia unei imagini depete un anumit prag se consider c
parametrul respectiv nu este reprezentativ pentru imaginile cutate.
4.2.4 Relevance feedback cu algoritmi de clasificare
Odat cu dezvoltarea major a domenului de machine learning, algoritmii de clasificare

i-au gsit aplicabilitatea i n algorimii de relevance feedback. Aceste metode presupun
transformarea problemei de relevance feedback ntr-una de clasificare a dou clase: o
clas alctuit din documente relevante i una din documente nerelevante. Dup un
proces de antrenare, toate documentele vor primi un nou rang, n funcie de parametrul de
ieire al clasificatorului. Cele ma ntlnte metode de relevance feedback utilizeaz tehnici
ca: SVM, Nearest Neighbor , arbori de decizie i Random Forests.
Relevace feedback cu reele Support Vector Machines
Reelele SVM (Support Vector Machines) [148] reprezint o clas de algoritmi neuronali
cu nvare supervizat, fiind n acest moment o referin n domeniul machine learning.
Algoritmii SVM sunt eficieni pe seturi de date cu un numr mare de instane i de
trsturi. Acetia creeaz un hiperplan, care separ clasele astfel nct s maximizeze
95
distana dintre acestea. Un hiperplan este un plan care divizeaz spaiul n dou subspaii.
De exemplu, n spaiul bidimensional, separarea se poate face printr-o dreapt. De fapt,
hiperplanele sunt funcii de m variabile, unde m este numrul de variabile independente
dup care se face clasificarea. n cazul n care problema nu este liniar separabil, SVM
mapeaz trsturile ntr-un spaiu de dimensiune mai mare, n care problema poate deveni
liniar separabil.
Fig. 4.3 Clasificare utiliznd reele SVM
n acest scop se utilizeaz aa numitele funcii-nucleu. Acestea pot fi de mai multe tipuri:
- Liniare: ;
- Polinomiale: ;
- Baz radial: ;
- Sigmoide: .
n mod ideal, o analiz SVM ar trebui s creeze un hiperplan care separ complet
caracteristicele a doi vectori n dou grupe separabile. Exist ns tipuri de date, care nu
sunt total separabile, rezultnd un model cu o putere de generalizare mai mic (problem
definit anterior ca overfitting). Pentru a adauga flexibilitate algoritmului, modelele
SVM au un parametru de cost C, care controleaz decizia de a lua margini mai rigide i
de a permite erori. Algoritmul va alege, astfel, hiperplanul care va maximiza decizia
corect i va minimiza eroarea.
Implementri ale SVM n contextul algoritmilor de felevance feedback sunt
propuse n [149] [150]. n [150], dup preluarea feedback-ului de la utilizator, sistemul
antreneaz un clasificator SVM care va creea un hiperplan ntre documentele relevante i
nerelevante. Apoi, utiliznd clasificatorul antrenat, baza de date va fii clasificat n dou
clase: relevante i nerelevante. Clasificatorul va acorda fiecrui document un scor de
relevan care va fi utilizat pentru reordonarea tututor documentelor. Alegerea nucleului
joac un rol foarte important n performana unui sistem de relevance feedback. Un
nucleu liniar este util n cazul unui spaiu liniar separabil cu un numr foarte mare de
dimensiuni. De asemenea, nucleul liniar reprezint o alegere bun n cazul n care viteza
96
sistemului este critic. n schimb, nucleele nonlineare sunt mai robuste i genereaz
hyperplane de separaie mult mai eficiente.
SVM reprezint o soluie eficient i robust pentru relevance feedback, deoarece
este rapid i relativ stabil n cazurile n care numrul de documente utilizate n antrenare
este redus.
4.3 Concluzii
n acest capitol am discutat diverse metode de relevance feedback. Astfel, am fcut o
trecere n revist a metodelor i tehnicilor folosite n sistemele actuale: relevance
feedback clasic, pseudo-relevance i relevance feedback indirect. Succesul alegerii
strategiei corecte depinde foarte mult de tipul problemei care trebuie rezolvat.
n continuare, am expus diferite metode de relevance feedback propuse n
literatur. Acestea se mpart n patru categorii principale: algoritmi de mutare a punctului
de interogare, de determinare a importanei trsturii, RF cu algoritmi statistici i de
clasificare. Primele categorii se evideniaz prin vitez ridicat de execuie, ns
performana acestora scade odat cu creterea dimensiunii i a complexitii bazelor de
date. Pe de alt parte, metodele care privesc procesul de relevance feedback ca o
problem de clasificare a dou clase prezint dificulti de nvare datorit numrului
redus de date de nvare. Mai mult, de cele mai multe ori numrul documentelor pe care
se acord feedback este mult mai mic dect spaiul descriptorilor, sau exist dezechilibre
n modul de acordare a feedbackului.
Algoritmii de RF reprezint o component des ntlnit n cadrul sistemelor de
indexare dup coninut. Acetia au rolul de a mbunti performanele de indexare ale
sistemelor multimedia, prin nvaarea online a preferinelor utilizatorului. Cu toate
acestea, metodele de RF prezint anumite limitri ce in de implementare, vitez de
execuie i dificultate de antrenare datorit numrului redus de date de nvare.
97
98
Partea II
Contribuii personale
99
100
Capitolul 5
Descrierea coninutului de textur
folosind automate celulare
5.1 Teoria automatelor celulare
Un automat celular (cunoscut i ca reea celular) reprezint o funcie matematic care
modeleaz un fenomen discret. Aceste automate prezint o utilitate divers, fiind propuse
aplicaii n domenii ca: inteligen artificial, matematic, fizic, biologie, criptografie i
modelare grafic. Un automat celular presupune existena unei reele (matrici) de celule,
care conine un numr finit de stri i dimensiuni. Fiecare reea celular are definit un
set de reguli, iar acestea sunt aplicate reelei de la o iteraie la alta. n funcie de tipul
aplicaiei, regulile sunt procesate n mod iterativ, de cte ori este necesar pentru
finalizarea fenomenului.
Von Neumann a fost una dintre primele persoane care a folosit un astfel de model,
pe care ulterior l-a integrat n automatul su universal [151]. Apoi, n anii 50,
automatul celular a fost studiat n contextul sistemelor biologice. ncepnd cu anii 90,
Wolfram a dezvoltat teoria automatelor celulare [152], dup care a publicat o colecie
impresionant de automate celulare i diferite aplicaii ale acestora.
Automatele celulare prezint o varietate de forme. Una dintre proprietile
fundamentale ale unei reele celulare este reprezentat de forma matricei sau, mai precis,
de modul n care sunt concepute vecintile. Aceast proprietate const n numrul de
vecini ai unei celule (de obicei, numrul vecintilor ia n calcul i celula curent). Cea
mai simpl matrice este cea unidimensional, i anume reeaua are forma unei linii n
care fiecare celul are doi vecini. n cazul bidimensional, pot fi considerate mai multe
tipuri de vecinti: triangular (Brickwall), pentagonal (von Nemann), heptagonal i
eneagonal (Moore). Reprezentri grafice ale vecintilor 2D pot fi vizualizate n Figura
5.1. De asemenea, automatele celulare pot fi concepute n spaii multidimensionale, cele
mai des ntlnite fiind cele cu trei dimensiuni (reele reacie-difuzie [153]), intens
utilizate n modelarea reaciilor chimice.
101
Fig. 5.1. Tipuri de vecinti ale unui automat celular: (a) vecintate Brickwall, (b)
pentagonal (von Nemann), (c) eneagonal (Moore) i heptagonal; celulele albastre
reprezint imaginea curent iar cele albastre indic vecintatea
O alt caracteristic important a automatelor celulare este reprezentat de

numrul de stri, care trebuie impus la configurarea iniial a reelei. Cea mai simpl
arhitectur de automat celular clasic conine dou stri: denumite generic ca 0 i 1, sau
alb i negru. Totui, de cele mai multe ori, o reea celular conine un numr mai
mare de stri.
innd cont de comportamentul lor, Wolfram [152] a mprit reelele celulare n
patru categorii principale:
clasa 1 - conine celularele automate care evolueaz rapid ntr-o stare stabil i
omogen, chiar dac starea iniial are o form aleatoare.
clasa 2 include celularele automate care evolueaz rapid ntr-o stare stabil dar
oscilant. n cadrul acestor tipuri de automate celulare, influena strilor iniiale
are o pondere sczut n modul de evoluie al automatului
clasa 3 conine acele automate celulare al cror comportament poate fi
considerat pseudo-aleator sau chiar haotic. Forma strii iniiale influeneaz
evoluia ulterioar a automatului celular. De asemenea, n cazul n care apar
structuri stabile, acestea vor fi distruse de ctre zgomotul din vecintate.
clasa 4 cuprinde acele automate celulare n care apar modele complexe cu
structuri bine definite, care sunt capabile de calcule universale. Exemple de
automate celulare din aceast categorie, pot fi enumerate Game of Life [154] i
Rule 110 [155].
Numrul de funcii posibile pe care un automat celular le poate lua este aproape
imposibil de calculat. Spre exemplu, n cazul celui mai simplu automat celular posibil, cel
cu doi vecini i cu dou stri, avem un numr de 256 de posibiliti de funcii posibile.
Dar, odat cu creterea numrului strilor i al vecintilor, numrul de posibiliti crete
102
exponenial. n [152] sunt prezentate cele 256 de posibiliti de funcii pe care un automat
celular le poate lua i aplicaiile acestora.
5.2 Descrirerea texturilor utiliznd automate celulare

n acest capitol voi prezenta un algoritm inspirat din teoria automatelor celulare, cu
aplicabilitate n descrierea i clasificarea imaginilor de textur. Rezultatele experimentale
din cadrul acestui capitol au fost publicate n cadrul revistei Buletin UPB [156].
Automatul celular folosit va avea dou stri (0 i 1) i va folosi o vecintate
Moore. Primul pas care trebuie efectuat n vederea aplicrii teoriei reelelor celulare n
procesarea de imagini este binarizarea imaginii. n vederea binarizrii, vom utiliza un
numr variabil de praguri. n timpul etapei de stabilire a pragurilor, pixelii individuali vor
fi marcai cu valoarea 1 dac valoarea acestuia va fi mai ridicat dect a pragului i 0 n
caz contrar. Pentru o mai bun descriere a coninutului vizual, vom folosi un numr
variabil de praguri. n cadrul experimentelor au fost testate un numr variabil de praguri
(de la 1 la 64). Valorile acestora vor fi alese n mod uniform pe tot intervalul grayscale:
[0..255]. Spre exemplu, dac alegem un numr de 3 praguri, acestea vor avea valorile:
64, 128 i 196. Prin aplicarea acestor praguri vom obine un set de imagini binare. Pentru
fiecare imagine binar, vom aplica un set de reguli i vom extrage un set de parametri
care descriu informaia din cadrul imaginii binare. Metoda de extracie a parametrilor este
dat de formula:
0 1 (5.1)
unde M i N reprezint dimensiunile imaginii, iar F(i,j) reprezint o funcie nucleu

calculat cu ajutorul vecintii pixelului curent. Funcia kernel este definit n felul
urmtor:
| | (5.2)
unde N i , j este vecintatea de dimensiune 3x3, centrat n jurul punctului curent (i,j),
este valoarea pixelului de la poziia k (k=1..9), iar A(k) reprezint ponderile care
sunt aplicate fiecrui element din vecintatea punctului curent. n Figura 5.2 este
prezentat att forma vecintii punctului curent (i,j) ct i notaiile folosite.
Fig. 5.2 Vecintatea 3x3 din jurul funciei kernel
103
Numrul de funcii posibile care pot fi utilizate are o valoare foarte mare.
De exemplu, pentru o vecintate von Newmann avem un numr de funcii
posibile. ns, testarea acestui numr ridicat de posibiliti este un proces
consumator de timp. Din acest motiv, am utilizat un numr redus de posibiliti: i anume
ase perechi de funcii. Aceste funcii sunt similare cu operatorii utilizai n detecia de
contur (Prewitt, Sobel, operatorul Laplacian i operatorul cruce Robertson). Figura 5.3
prezint funciile kernel utilizate n experimentul nostru.
Fig 5.3 ase funcii kernel propuse pentru descrierea coninutului de textur
Acest proces de binarizare succesiv i de calcul a unor parametri de aspect i are

motivaia n ncercarea de a extrage anumite caracteristici eseniale ale texturii, i anume
contrastul, direcionalitatea i gradul de omogeneitate a texturii. Prin procesul de
binarizare, vom extrage gama dinamic a distribuiei nivelelor de gri dintr-o imagine,
mpreun cu distribuia de alb i negru. Cu ct numrul de praguri este mai ridicat, cu att
trstura de contrast a texturii va fi mai bine extras. Cea de-a doua trstur extras este
cea de direcionalitate a texturii. Prin aplicarea operatorilor de contur, se vor extrage
direciile fundamentale ale texturii.
Gradul de omogeneitate a texturii reprezint o ultim trstur fundamental
descris cu parametrii C. n [157] a fost demonstrat c o valoare a parametrului C
apropiat de 1 indic o omogenitate a strilor, n timp ce o valoare C=0,5 reprezint un
haos perfect. n cellalt extrem C=0 indic o valoare constant a imaginii (variaii
apropiate de zero).
Acest model este apropiat de modul de percepie uman. n scopul de a extrage
informaia referitoare la scala i rata de repetiie a texelilor, vom repeta algoritmul asupra
mai multor scale ale imaginii. Astfel, vom calcula asprimea texturii la diverse rezoluii. n
seciunea experimental, vom utiliza mai multe scale ale imaginii: 100%, 50%, 25%,
12,5% i 6,25%.
104
5.3 Rezultate experimentale

Pentru validarea metodei propuse, vom testa acest algoritm pe patru baze de date de
textur foarte cunoscute:
Baza de date VisTex a fost conceput de ctre Massachusetts Institute of
Technology (MIT) [158] [159]. Aceasta conine un set de 900 de imagini de textur (9
imagini pe clas), i are n componen nu numai texturi omogenene fotografiate frontal,
ci i elemente de textur naturale, cu anumite variaii de luminozitate.
Baza de date UIUC [160], alctuit dintr-un numr de 25 de clase (40 de imagini
pe fiecare clas). Toate imaginile sunt n format grayscale i au dimesiunea 640x480.
Albumul foto Brodatz [161] conine un numr de 111 imagini de textur. Fiecare
imagine reprezint o clas distinct. Pentru a genera un numr mai mare de imagini per
clas, s-a mprit fiecare imagine n nou regiuni. n acest fel au fost generate un numr
de 999 imagini cu o rezoluie de 215x215 pixeli.
Baza de date KTH [162] care conine 10 clase de textur, imaginile coninnd un
grad ridicat de zgomot: alterate prin iluminare, scalare i translaii. Fiecare clas conine
81 de imagini.
Exemple de imagini de textur din cadrul bazelor de date sunt prezentate n
Figura 5.4.
Fig. 5.4 Exemple de texturi utilizate n experimente: prima linie baza de date Brodatz,
baza de date VisTex n a doua linie, UIUC pe linia a treia i KTH pe ultimul rnd
5.3.1 Alegerea parametrilor algoritmului
n acest capitol, vom analiza influena parametrilor algoritmului asupra performanei

sistemului. n primul experiment, vom varia numrul de praguri (utiliznd o singur scal
a imaginii), apoi vom schimba numrul de scale ale imaginii pentru un numr fix de
praguri. n final, vom analiza performana fiecrui set de funcii.
n cadrul acestui experiment vom utiliza de fiecare dat o singur valoare prag, o
singur scal de textur i prima funcie nucleu (Figura 5.3. (a)).
105
n primul experiment vom prezenta influena numrului de praguri asupra

performanei sistemului. Rezultatele experimentale sunt prezentate n Figura 5.5. Se
observa c pentru fiecare baz de date, performana crete odat cu creterea numrului
de imagini binare extras, ns la un moment dat aceasta se plafoneaz. De asemenea, se
poate vizualiza c un numr de 7 praguri este suficient pentru a obine rezultate optime.
Un numr mai ridicat de imagini binare nu va mbunti n mod notabil performana
algoritmului.
Fig. 5.5 Performana MAP utiliznd un numr variabil de praguri (o singur scal de
imagine)
n al doilea experiment, vom evidenia influena numrului de scale de imagini.

Rezultatele experimentale sunt prezentate n Figura 5.6. Aa cum era de ateptat, se poate
observa c rezultatul este similar cu cel din experimentul anterior. Precizia crete odat
cu numrul de scale, ns se plafoneaz la un moment dat. Primele trei scale sunt
suficiente pentru ca sistemul s ating performan maxim.
Fig. 5.6 Performana MAP utiliznd un numr variabil de scale (folosind un singur prag)
106
Ultimul experiment prezint performana fiecrei funcii nucleu n parte. Figura

5.7 ilustreaz performana MAP a acestora. Se poate observa c majoritatea funciilor
nucleu prezint o performan asemntoare, ns primul set de funcii prezint acurateea
cea mai ridicat. Aceste funcii sunt asemntoare cu filtrul derivativ Prewitt, ceea ce
indic faptul c trstura de direcionalitate a texturii este foarte important. De asemeni,
se poate observa c prin concatenarea tuturor funciilor, performana algoritmului este
similar cu situaia n care utilizm doar primul set de funcii nucleu.
Fig. 5.7 Performana obinut pentru diverse seturi de funcii utilizate ( 1 baza de date
UIUC, 2 albumul Brodatz, 3 - baza KTH i 4 - baza Vistex) - valori MAP
n experimentele care urmeaz vom utiliza parametrii care asigur: 7 praguri, 4

scale i setul de funcii nucleu Prewitt.
5.3.2 Comparaie cu State-of-the-art
Urmtorul set de experimente prezint o comparaie a algoritmului propus cu ali

descriptori clasici de textur, i anume: Local Binary Patterns (LBP) [62], Color
Coherence Vectors (CCV) [51], momente de culoare [50], matricea de coocuren cu
parametri Haralick [57], autocorelograma [59], matricea de izosegmente [60] i
descriptorii MPEG-7: Edge Histogram Descriptor (EHD - histogrma de contururi) i
Homogeneous Texture Descriptor (HTD - descriptorul de omogenitate a texturii).
Pentru a compara performana descriptorilor, vom efectua dou tipuri de
experimente: primul experiment va fi unul de cutare (vom folosi fiecare textur din baza
de date pe post de interogare utiliznd principiul query by example), iar al doilea
experiment va fi efectuat n contextul unui scenariu de clasificare a texturilor prin
utilizarea unor clasificatori.
107
Experiment de cutare
n vederea comparaiei i msurrii performanelor de retrieval am calculat graficele

precizie-reamintire i valorile MAP pentru fiecare descriptor n parte. n Figura 5.8. sunt
prezentate graficele precizie-reamintire. n cadrul acestora, am comparat algoritmul
propus (linie punctat roie) cu algoritmii clasici de descriere a texturilor: LBP (linie
punctat neagr), CCV (linie ntrerupt galben), momente de culoare (linie ntrerupt
magenta), matricea de coocuren (linie punctat verde), autocorelograma (linie
ntrerupt verde), matricea de izosegmente (linie ntrerupt albastr), EHD (linie
ntrerupt albastr) i HTD (linie ntrerupt neagr).
Tab. 5.1 Comparaie ntre cele mai bune rezultate (valori MAP)
Baza de date primul MAP al doilea MAP al treilea MAP

KTH 31,95% - algoritmul propus 30,34% - HTD 29,43% - LBP
Brodatz 60,58% - HTD 59,94% - algoritmul propus 39,45% - CCV
UIUC 33,43% - algoritmul propus 32,56% - CCV 31,90% - LBP
VisTex 66,33% - HTD 61,73% -algoritmul propus 59,95% - LBP
Fig. 5.8 Graficele precizie reamintire pentru cele patru baze de date (KTH, Brodatz,
UIUC i VisTex) pentru diverse seturi de descriptori
108
Algoritmul propus a obinut cele mai bune rezultate n dou din cele patru cazuri:
pentru bazele de date KTH i UIUC, n timp ce pentru bazele Brodatz i VisTex am
obinut poziia a doua. Rezultate foarte bune au fost obinute i cu descriptorii: HTD,
LBP, CCV i cu matricea de coocuren.
Cele mai slabe rezultate au fost obinute cu momentele de culoare, histograma de
margini i matricea de izosegmente. n cele mai multe cazuri, performana acestora este
de dou ori mai mic fa de a algoritmului propus. Rezultate mai bune au fost obinute n
cazul autocorelogramei, ns diferenele sunt majore i n aceste cazuri (MAP de la 10%
la 25%).
Experiment de clasificare
n al doilea experiment, ne propunem s testm descriptorii din perspectiva clasificrii.

Au fost testai o gam larg de algoritmi de clasificare, care au obinut rezultate bune la
competiiile de machine learning: Naive Bayes [145], Nearest Neighbor [163], SVM
[148] (cu nucleu liniar i RBF), Random Trees [38], Gradient Boosted Trees [164],
Extremelly Random Forest [165]. Parametrii algoritmilor au fost iniial setai n funcie
de experimentele preliminare. Bazele de date au fost mprite n dou pri egale: una de
antrenament i una de testare. Pentru a msura performana s-a utilizat parametrul de
medie a preciziilor (acuratee).
n Figura 5.9 prezentm procentajul global de clasificare corect pe o selecie de
apte algoritmi de clasificare pe cele patru baze de date: KTH, UIUC, Brodatz i Vistex.
Rezultatele au valori promitoare. Cele mai bune rezultate au fost obinute utiliznd
trsturile propuse, n combinaie cu clasificatorii Extremelly Random Forests, Random
Trees, Naive Bayes i SVM cu RBF kernel. Cea mai bun performan de clasificare are
o valoare puin peste 97% n timp ce cea mai sczut are o valoare apropiat de 92%.
Cele mai bune performane de clasificare au fost obinute de ctre metoda
propus, i anume: KTH cu Nearest Neighbour (96,92%), Brodatz cu Naive Bayes
(92,17%), UIUC cu Extremelly Random Forest (88.2%) i Vistex cu Extremelly Random
Forest (90.22%).
Pe de alt parte, cele mai slabe rezultate se obin cu momentele de culoare i
descriptorul EHD, n timp ce clasificatorii cu performane mici sunt Gradient Random
Trees i SVM cu nucleu liniar.
109
Fig. 5.9 Rezultatele clasificrii pe bazele Brodatz, UIUC, KTH i Vistex utiliznd diferite
metode de clasificare (Naive Bayes, Nearest Neighbor, SVM liniar, SVM cu nucleu RBF,
Random Trees, Gradient Boosted Trees, Extremelly Random Forest) i diferii descriptori
(1. LBP, 2. CCV, 3. Momente de culoare, 4. Matricea de izosegmente, 5.
Autocorelograma, 6. Matricea de Coocuren, 7. EHD 8. HTD, 9. algoritmul propus) pe
baza de date Vistex
110
5.3.2 Comparaie de complexitate
n Tabelul 5.2 sunt prezentate complexitatea algoritmilor mpreun cu lungimea

vectorului descriptor. Algoritmul propus are o complexitate redus, similar cu algoritmi
ca histograma de nivele de gri, CCV, EHD i momente de culoare.
Tab. 5.2 Comparaie ntre complexitatea computaional i lungimea descriptorilor
Lungime
Descriptor Complexitatea computaional
descriptor
Histograma de nivele O(n) 24
de gri
CCV O(n) 48
Momente de imagine O(n) 9
Matricea de O(n) + O(km) unde k este numrul de culori
izosegmente obinut n urma cuantizrii iar m reprezint lungimea 23
maxim a izosegmentului
Autocorelograma O(n) + O(km) unde k este numrul de culori
obinut n urma cuantizrii iar m reprezint numrul 96
de vecinti
Matricea de O(n) + O( ) unde k este numrul de culori obinut 16
coocuren n urma cuantizrii
Histograma de O(n) 80
margini
Descriptorul de O( log(n)) 64
omogenitate a texturii
Algoritmul propus kO(n) unde k reprezent numrul de parametri 42
calculai
Descriptorul HTD prezint cea mai mare complexitate de calcul (O( n 2 log(n))), n
timp ce matricea de izosegmente, autocorelograma i matricea de coocuren au o
complexitate mai ridicat dect a algoritmului propus. Un alt criteriu de comparaie este
lungimea vectorului descriptor. Descriptorul standard, utilizat n comparaie are o
lungime de 42 de caracteristici (trei scale i apte praguri). Patru descriptori au o
dimensiune mai redus (histograma de niveluri de gri, momente de culoare, matricea de
izosegmente, i matricea de coocuren), n timp ce CCV, autocorelograma, HTD i EHD
au o lungime mai ridicat.
111
5.4 Concluzii
n acest capitol am prezentat o abordare neliniar pentru descrierea i clasificarea
imaginilor de textur. Performana descriptorului este validat att n contextul unui
sistem de clasificare ct i din perspectiva unui sistem de cutare a imaginilor dup
coninut. n acest scop, am utilizat patru baze de date de textur, pentru a compara
descriptorul nostru cu algoritmii existeni. Algoritmul propus, n ciuda simplitii sale,
reprezint o bun alternativ la descriptorii clasici de textur. n cele mai multe
experimente, algorimul propus ofer cele mai bune rezultate n probleme de cutare i
clasificare. De asemenea, algoritmul propus se impune prin simplitate i complexitate
redus de calcul.
Ca direcie viitoare de cercetare, mi propun s mbuntesc performana
algoritmului i s l adaptez altor tipuri de categorii de imagini, ca de exemplu imagini
medicale sau imagini naturale. De asemenea, mi propun s testez alte tipuri de funcii
nucleu i tehnici adaptive de binarizare a imaginilor.
112
Capitolul 6
Descrierea coninutului folosind
reprezentarea Fisher kernel
6.1 Teoria Fisher kernel
Reprezentarea Fisher kernel a fost iniial proiectat ca un model care combin beneficiile
algoritmilor generativi i ai celor discriminativi. Ideea general este de a reprezenta un
semnal ca fiind gradientul funciei de densitate de probabilitate. Acesta poate fi antrenat
prin utilizarea un model generativ, de cele mai multe ori acesta fiind modelul Gaussian
Mixture Model (GMM). Odat calculai vectorii Fisher, acetia se combin cu un
clasificator, cum ar fi de exemplu SVM.
Fie un set de T descriptori video multimodali. X va fi
reprezentat ca un vector gradient fa de modelul GMM cu parametri :
( ) (6.1)
Vectorul gradient este, prin definiie, concatenarea derivatelor pariale fa de
modelul GMM antrenat. Fie i , media i deviaia standard a clusterului gausian i,
probabilitatea de apartenen a descriptorului fa de centroidul I al GMM, iar D
dimensiunea descriptorului Definim ca fiind gradienii densitii de probabilitate a
setului de descriptori X de dimensiune D fa de mediile i gradienii fa de
deviaia standard a gausienei i. Matematic, aceste derivate sunt egale cu:
(6.2)

(6.3)

Vectorul gradient final Gx reprezint concatenarea vectorilor i pentru i =
[1...K]. Fisher kernel a fost introdus prima dat de ctre Jaakkola i Haussler n 1999
[166], denumirea fiind dat n cinstea lui Sir Ronald Fisher (un statistician, biolog
evoluionist, eugenist i genetician englez). n aceast lucrare, a fost propus un mecanism
de agregare a modelelor probabilitilor generative cu modelele de clasificare
discriminative, ca de exemplu modelul SVM. Apoi, n [167] Fisher kernel a fost introdus
n detecia i clasificarea de proteine. n urmtorii ani, modelul Fisher kernel a fost
113
utilizat n diferite domenii, de la clasificare audio, identificare de voce pn la clasificare

de imagini. n [168], a fost propus un framework care utilizeaz Fisher kernel n
contextul clasificrii de documente audio web, n contextul unor baze de date de
dimensiuni ridicate (large-scale). De asemenea, ei au propus un set de justificri
experimentale pentru utilizarea modelului, artnd c Fisher kernel limiteaz
dimensiunea spaiului descriptorului, ceea ce ofer anumite beneficii discriminatorii. Alte
domenii n care modelul Fisher kernel a fost propus cu succes sunt clasificarea de baze de
date de documente [169] i n probleme de recunoatere i identificare a vocii [170].
ns, domeniul n care Fisher kernel a fost aplicat cu performane foarte bune, este
clasificarea de imagini. Cele mai multe sisteme de cutare multimedia dup coninut sunt
compuse din dou etape principale: extragerea de trsturi i ordonarea documentelor n
funcie de trsturi. Prima component presupune calculul unei trsturi per document,
iar aceasta trebuie s cuprind ct mai mult informaie relevant pentru categoria din
care face parte. De exemplu, pentru imagini, se extrag un set de puncte cheie iar apoi
acestea sunt agregate n modelul Bag of Words. Dar, prin agregarea acestora apare un
zgomot de cuantizare. Acesta poate fi eliminat prin utilizarea unui dicionar de
dimensiune ridicat, ns presupune un efort computaional ridicat. Pe de alt parte, o alt
metod propus este s se calculeze distana Earth Mover ntre seturile de cuvinte cheie
dintre dou imagini. Spre exemplu, n [171] s-a extras un dicionar de 40 cuvinte, iar apoi
pentru fiecare imagine se calculeaz distana dintre setul de cuvinte cheie al acesteia i
dicionarul antrenat. Totui, aceste metrici implic un cost computaional foarte ridicat,
mai ales pentru baze de date cu dimensiuni mari.
Prin utilizarea reprezentrii Fisher, se obine o soluie natural la problema
descris anterior deoarece modelul Fisher kernel a fost iniial conceput pentru a agrega
vectori de dimensiuni fixe ntr-o reprezentare de lungime constant. n [172] a fost
propus un model constelaie care agreg probabilitile de apariie a cuvintelor cheie, n
timp ce n [173] au fost agregai chiar descriptorii cuvintelor cheie. Apoi, n [99], au fost
propuse un set de mbuntiri care pot crete performana Fisher kernel (aplicare de
normalizri i piramide spaiale), ca apoi, n [174] modelul s fie extins pentru baze de
date de imagini large-scale. Reprezentarea gradient a vectorilor Fisher prezint un avantaj
major fa de reprezentarea clasic Bag-of-Visual-Words, deoarece este mult mai rapid
(utilizeaz dicionare de dimensiuni reduse) i permite utilizarea unor algoritmi rapizi de
clasificare, ca de exemplu SVM cu nucleu liniar.
6.2 Reprezentarea Fisher kernel

n Figura 6.1. este prezentat schema de aplicare a unui model Fisher kernel. Acesta
cuprinde patru pri componente: extragerea de trsturi din documente, generarea unui
dicionar din trsturile selectate, calculul i normalizarea vectorilor Fisher i antrenarea
unui algoritm de clasificare.
114
Fig. 6.1 Schema general a unei reprezentri Fisher kernel
Extragere trsturi documente. Iniial, pentru fiecare document se extrage un set

de descriptori. Aceti descriptori vor fi caracteristici aplicaiei n care vom aplica metoda,
i anume: pentru imagini putem extrage puncte de interes, n timp ce pentru documente
video putem selecta trsturi de micare, audio sau puncte de interes din cadrele vizuale
extrase.
Un parametru care trebuie luat n considerare n acest pas este numrul de
descriptori care trebuie extrai, pentru ca apoi s poat fi agregai cu Fisher kernel. Spre
exemplu, pentru documentele video, se pot calcula descriptori vizuali doar pentru un
numr redus de cadre, sau putem utiliza o strategie de extragere dens de cadre. n acest
caz, trebuie gsit un compromis ntre performan i putere computaional utilizat.
Generare dicionar. Urmtorul pas este reprezentat de generarea unui dicionar
relevant pentru conceptele ce vor urma s fie antrenate. n acest sens, se antreneaz un
model gausian Gaussian Mixture Model (GMM) care va genera un dicionar de
concepte. Din raiuni de optimizare, clusterii GMM pot fi iniializai cu un algoritm k-
means. Un parametru important n antrenarea modelului GMM l reprezint numrul de
centroizi c. Avnd n vedere c pentru fiecare cluster adugat, dimensiunea noii
reprezentri se va dubla, pentru ca sistemul s ruleze real-time, c trebuie s aib o valoare
redus. Influena parametrului c va fi testat pentru fiecare aplicaie n parte n seciunea
experimental.
Un alt parametru, care poate influena performana GMM este aplicarea de
algoritmi de reducere a dimensiunii descriptorilor. Un prim aspect, care trebuie
evideniat, este faptul c lungimea unei reprezentri Fisher este egal cu , unde N
reprezint lungimea unui descriptor extras din document. Astfel, orice modalitate de
reducere a dimensiunii finale a descriptorului este fundamental. n al doilea rnd, ne
ateptm c un algoritm de reducere a dimensiunii va selecta trsturile mai relevante, n
115
timp ce trsturile zgomotoase vor fi eliminate. n vederea reducerii dimensiunii

vectorilor descriptori, vom utiliza analiza componentelor principale.
Generare vectori Fisher. Vectorii Fisher vor fi calculai cu formulele (6.2) i
(6.3). Apoi, pentru fiecare vector Fisher se va aplica un proces de normalizare. n [99], s-
a demonstrat c aplicarea normalizrii asupra vectorilor Fisher crete performana
acestora n mod considerabil. n acest capitol, vom testa diverse variante de normalizare:
i , normalizare de putere ( ), normalizarea logaritmic
( , mpreun cu combinri ale acestora, unde sgn(x)
reprezint funcia de semn.
Clasificare vectori Fisher. Clasificatorii SVM reprezint o alegere foarte popular
n multe probleme de clasificare, mai ales deoarece este robust la trsturi cu dimensiuni
ridicate i valori rare. Alegerea unui nucleu SVM corespunztor, va avea un impact
hotrtor n performana sistemului. Vom testa diferite variante de nuclee SVM, de la cel
liniar, la cele neliniare: Radial Basis Function (RBF), Histogram Intersection (HI) i
Chi-Square (CHI). n cadrul experimentelor iniiale efectuate, cele mai bune rezultate
au fost obinute cu primele dou nuclee, astfel, c toate experimentele prezentate vor
folosi primele dou nuclee. SVM liniar are ca principal avantaj viteza mare clasificare i
antrenare pentru trsturi de descriptori de de dimeniuni ridicate, n timp ce SVM RBF
obine rezultate mai bune atunci cnd clasele nu sunt liniar separabile.
6.3 Problematica modelrii timpului n filme

n domeniul clasificrii documentelor video, o direcie important de cercetare este cum
s fie capturat n mod adecvat informaia temporal. Pn recent, cele mai multe sisteme
de clasificare de documente video se bazau pe utilizarea unei reprezentri pentru toat
secvena video, ns n acest caz noiunea temporal este pierdut din diferite motive.
Multe propuneri de descriptori video doar acumuleaz trsturile pe toate cadrele, prin
utilizarea unor metode statistice, ca media sau variana. ns, acest tip de abordare, dei se
evideniaz prin simplitate i putere mare de acumulare, amestec mai multe tipuri de
informaie fr a ine cont de aspectul temporal al filmului. De exemplu, cnd o main
se apropie i apoi realizeaz anumite curbe, media informaiei de micare poate fi
interpretat ca o micare rectilinie, sau nu ine cont de ct de diferite erau curbele
respective. Deci, avem nevoie de o abordare n care s se fac distincia ntre aceste tipuri
de informaie.
n acest capitol, voi propune o nou reprezentare video pentru capturarea variaiei
temporale n filme, prin utilizare reprezentrii Fisher. n cele mai multe abordri,
reprezentarea Fisher este propus n contextul mbuntirii modelului Bag-of-Words.
ntr-o abordare clasic de Fisher kernel, o imagine este convertit ntr-o colecie de
descriptori locali, care apoi sunt modelai cu ajutorul unei reprezentri GMM. n acest
capitol, ne propunem s extragem trsturi pe fiecare cadru, rezultnd o mulime de
116
descriptori globali de cadru, ca apoi acetia s fie modelai cu o reprezentare Fisher. n

aceast modelare ordinea spaial este pierdut, la fel ca i n modelul Bag-of-Words,
ns variaia temporal este modelat. n particular, cadrele diferite vor fi reprezentate n
diferite componente, evitnd astfel amestecul de noiuni diferite. Spre exemplu, n
emisiunile de tiri sau n talk show-uri nu este necesar memorarea succesiunii de
evenimente ci doar extragerea cadrelor i intepretarea informaiei din ele. Mai mult,
secvenele similare vor fi mapate n componente asemntoare n funcie de distribuia
modelului GMM antrenat.
Metoda propus pentru modelarea variaiei temporale are un caracter foarte
general. n acest scop am experimentat o varietate de baze de date de referin: de la
clasificare de gen (MediaEval 2012) pn la recunoatere de aciuni sportive (UCF Sport
50) sau de aciuni cotidiene (ADL). Mai mult, am studiat metoda propus pe o varietate
de trsturi, de la histograme HOG, CN i HOF pn la trsturi HoF extrase pe
componentele corpului uman i trsturi clasice audio. n experimentele viitoare vom
arta c simpla acumulare a descriptorilor va obine rezultate cu mult inferioare
reprezentrii Fisher. Mai mult, n toate experimentele am obinut rezultate mai bune sau
asemntoare cu cele obinute de alte metode din literatur.
Pentru a concluziona, principalele contribuii ale acestui capitol sunt: (1) am
introdus reprezentarea Fisher pentru modelarea variaiei temporale, (2) am demonstrat c
modelul propus are un caracter general n funcie de problema selectat: de la
recunoatere de gen, la recunoatere de secvene sportive la aciuni cotidiene, (3) am
artat generalitatea metodei n funcie de trsturile alese: de la descriptori vizuali, la
descriptori de micare i trsturi audio i (4) cu metoda propus am obinut rezultate
similare sau mai bune dect cele propuse n literatur, dei am utilizat un set de trsturi
mai uor de calculat.
6.4 Clasificarea automat dup gen a filmelor

6.4.1 Descriere experiment
O prim aplicaie propus este clasificarea filmelor dup gen. Pentru a testa algoritmul
vom utiliza baza de date MediaEval 2012 din cadrul competiiei de clasificare a filmelor
dup gen (Tagging Task) [45]. Baza de date conine 14.838 de filme grupate n 26 de
genuri, cum ar fi: automobile, art, comedie sau politic. Mai multe detalii despre baza de
date pot fi citite n Capitolul 2.7. Pentru descrierea coninutului video vom utiliza dou
canale de informaie: audio i vizual. Pentru descrierea coninutului vizual vom folosi
dou tipuri de descriptori: descriptori HOG globali care reprezint media trsturilor
Histograms of Gradients (HOG) [71] pe fiecare frame mprit n 3x3 blocuri
(dimensiune 81 numere per descriptor), i descriptori Color Naming (CN) [48] calculat
pe fiecare cadru n parte (dimensiune 11 numere per descriptor). Am ales Color Naming
117
deoarece acest model a fost antrenat pe seturi de imagini de pe web, la fel cum este cazul
i pentru baza MediaEval. Pentru descrierea coninutului audio vom folosi un set standard
de descriptori audio [175]: Linear Predictive Coefficients (LPC), Line Spectral Pairs
(LSP), descriptori MFCC, Zero-Crossing Rate (ZCR), spectral centroid, flux, rolloff i
kurtosis, toate ponderate cu variana pe fiecare trstur n parte pe o anumit fereastr
(n cazul nostru 1,28 secunde). Performana pentru toate experimentele de clasificare de
gen au fost msurate cu Mean Average Precision (MAP).
6.4.2 Optimizarea reprezentrii Fisher
Pentru optimizarea parametrilor Fisher kernel vom ncepe cu urmtoarele setri iniiale:
100 de centroizi GMM, deoarece pare un compromis bun ntre vitez de calcul i calitate,
i normalizare de putere [99] i SVM cu kernel RBF. n toate experimentele iniiale
SVM RBF a obinut rezultate mai bune dect SVM liniar. De asemenea, nu am aplicat
nici o transformare sau comprimare vreunei trsturi (cum ar fi PCA). Toi parametrii vor
fi evaluai pe baza de date de antrenare, aceasta fiind mprit n dou pri egale.
n primul experiment vom evalua influena numrului de trsturi asupra
performanei sistemului. Pentru a efectua acest experiment, vom lua n calcul dou
strategii de extragere a cadrelor: (1) printr-o strategie dens i (2) prin utilizarea unui
rezumat de cadre utiliznd metoda propus n [176]. n Figura 6.2 sunt prezentate
rezultatele experimentale efectuate pe trsturile vizuale. Se poate observa c
performana sistemului crete odat cu marirea numrului de cadre folosite, ns creterea
de performan se plafoneaz la un moment dat. n toate experimentele viitoare vom
folosi o strategie de extragere dens a cadrelor.
Fig. 6.2 Influena numrului de trsturi asupra performanei sistemului

118
Urmtorul experiment prezint influena PCA asupra performanei sistemului.

Avem dou motive pentru a aplica PCA: n primul rnd dorim s micorm dimensiunea
final a vectorului descriptor, iar n al doilea rnd credem c PCA va elimina elimina o
parte din zgomotul trsturilor, ceea ce va conduce la o cretere a acurateii. Teoretic,
GMM prezint performane atunci cnd zgomotul este redus iar datele sunt necorelate.
Experimentele arat c PCA mbuntete performanele atunci cnd este aplicat pe
trsturile audio i HOG. n schimb, pentru trsturile de culoare nu au performane
superioare cu PCA deoarece acestea deja conin informaie necorelat. Cea mai bun
performan este obinut atunci cnd reducem dimensiunea descriptorilor cu 20%. n
continuare, vom utiliza HOG i audio cu PCA redus la 80% din dimensiunea iniial, n
timp ce asupra descriptorilor de culoare nu vom aplica PCA.
Fig. 6.3 Influena aplicrii PCA asupra performanei sistemului
n ultimul experiment vom prezenta influena numrului de centroizi GMM

asupra performanei sistemului. Figura 6.4 prezint variaia performanei MAP atunci
cnd variem numrul de centroizi GMM ct i diferena de performan ntre performana
primilor descriptori plus a acestora atunci cnd aplicm reprezentare Fisher kernel. n
primul rnd trebuie s notm c performana acestora crete chiar i atunci cnd utilizm
un singur centroid. Spre exemplu, pentru descriptorii de culoare, performana crete de la
0.18 la 0,28, pentru descriptorii HOG de la 0,22 la 0,38, n timp ce pentru audio creterea
de performan este de la 0,34 la 0,45. Se observ deci o cretere de performan
superioar atunci cnd combinm Fisher kernel cu ali descriptori. De asemenea, prin
variaia numrului de clusteri, performana acestora nc poate fi mbuntit. Att CN
ct i HOG prezint ctig de performan de 0,05 atingnd 0,33 MAP i 0,43 MAP la
800 respectiv 200 de clusteri GMM. Descriptorii audio prezint o performan de 0,47
119
pentru 50 de clustere. Acesta va fi numrul de clustere care va fi utilizat n urmtorul

experiment. Dimensiunea descriptorilor utilizai n urmtoarele experimente vor fi de
mrime acceptabil: 17.600 pentru descriptorii de culoare, 42.000 pentru HOG i 9.000
pentru descriptorii audio. De notat, c odat cu creterea numrului de centroizi,
performana sistemului scade, datorit dimensiunii ridicate a trsturilor (paradigma
dimensionalitii).
Fig. 6.4 Influena numrului de centroizi GMM asupra performanei sistemului (valori
MAP)
6.4.3 Comparaie cu State-of-the-Art
n Tabelul 6.1 sunt prezentate rezultatele finale obinute cu metodele propuse i

comparaia acestora cu rezultatele raportate la MediaEval 2012 Tagging Task. Pentru
trsturile audio obinem o perfoman 0,475 MAP, cu mult mai bine dect performana
raportat la MediaEval 2012 de 0,1892 (echipa ARF) [119]. De asemeni, i descriptorii
vizuali au o performan superioar n faa celor raportai la MediaEval 2012 de ctre
[177]. n schimb, rezultate remarcabile sunt obinute prin combinarea trsturilor vizuale
cu cele audio. Acestea obin o performan de 0,55 ceea ce este chiar superioar
performanei obinute de cele mai bune echipe la MediaEval 2012, care au o performan
de 0,53 MAP, ns acestea din urm utilizeaz descriptori de nivel semantic de nivel
nalt, cum ar fi textul extras prin metode de recunoatere automat vorbirii sau cu ajutorul
metadatelor. De asemeneA, n cazul n care combinm trsturile noastre cu trsturi de
text, obinem un rezultat de 0,66 MAP, ceea ce depete cu mai mult de 0,13 MAP
performana obinut de cea mai important echip din competiie.
120
Tab. 6.1 Comparaie rezultate cu competiia MediaEval 2012 Tagging Task (valori
MAP)
Tip trstur Metod raportat la MediaEval MAP metod raportat MAP metod
2012 MediaEval 2012 propus
Audio Descriptori pe baz de blocuri 0,192 0,475
audio & SVM Liniar [119]
Vizual descriptori vizuali (Color,Texture, 0,350 0,460
rgbSIFT) [177]
Audio & Vizual - - 0,550
Text Bag of Words - Metadata & Text 0,526 -
ASR
Audio & Vizual - - 0,66
& Text
6.5 Recunoaterea de aciuni sportive

Aa cum am prezentat n seciunile anterioare, Fisher kernel este potrivit nu numai pentru
clasificare de gen, ct i pentru alte probleme multimedia. n aceast seciune vom evalua
metoda propus din perspectiva problemei de recunoaterii de aciuni sportive. n aceast
privin, vom aplica algoritmul pe o baz de date de aciuni sportive, i anume UCF Sport
50. Aceasta conine 6.680 documente video preluate de pe YouTube care conin variaii
majore de micare a camerei, pozitii, condiii de iluminare, scale i unghiuri de
vizualizare diferite. Baza de date conine 50 de categorii diferite cum ar fi: baseball,
aruncari, aruncri la co de basket, plimbat cu bicicleta, biliard, not, ridicare de greuti,
scufundri, btut la tob, scrima, golf, cntat la chitar, srituri cu prjina, curse de cai,
Hula Hoop, aruncarea suliei, srituri n lungime, Jumping Jack, caiac, exerciii de
nczire, parad militar, cntat la pian, fcut pizza, cal cu mnere, traciuni, box, urcri
perei artificiali, urcare pe frnghie, canotaj, salsa, skate boarding, sky, skijet, fotbal,
leagn, taichi, tennis, srituri la trambulin, cntat la vioar, volei, plimbri cu cinele i
Yo Yo etc.
Toate cele 50 de categorii sunt efectuate de cel puin 25 de grupuri de persoane,
fiecare grup avnd cel puin patru documente video. Filmele aparinnd fiecrui grup
conin cteva elemente similare, cum ar fi fundalul, unghiul de vizualizare sau contexte
asemntoare. Msurtorile finale vor fi efectuate folosind 25 de validri ncruciate i
anume: de fiecare dat un grup va fi exclus din grupul total de documente, antrenarea
fcndu-se pe restul de 24 de grupuri de documente iar testarea pe documentul exclus.
Performana msurat este raportat cu ajutorul parametrului de acuratee.
Optimizrile tuturor parametrilor au fost realizate pe jumtate din baza de date. n
121
schimb, rezultatele oficiale au fost calculate pe toat baza de date utiliznd metoda
clasic leave-one-group-out cross-validation.
Cele mai multe metode de descriere i clasificare a coninutului de aciune ncep
prin calculul punctelor de interes n spaiul temporal [105], fiecare informaie local fiind
descris cu autorul unor trsturi, ca de exemplu: HOG, HOF sau 3-D SIFT [108]. Aceste
metode au obinut rezultate bune pe baza de date UCF Sport 50, ns aceti algoritmi sunt
mari consumatori de resurse. n aceast seciune vom demonstra c putem obine
rezultate apropiate de state-of-the-art fr a utiliza descriptori care extrag puncte de
interes, folosind doar descriptori globali, cum ar fi HOG, HOF i histograme de culoare
CN.
Pentru descrierea coninutului de micare am utilizat urmtoarele trsturi: (1)
Histograme globale de gradieni orientai (36, 81 i 144 dimensiuni) care calculeaz HoG
pe primele 4 nivele de piramide spaiale, (2) histograme globale de Optical Flow (36, 81
i 144 dimensiuni) care masoar micarea pixelilor pe o regiune 9 orientri i (3)
histograma Color Naming (44, 99 i 176 dimensiuni). n toate experimentele, am
combinat aceste trsturi cu late fusion. Descriptorul HoF calculeaz unghiul de
micare a fiecrui pixel de la un frame la altul. Pentru a calcula unghiul de deplasare am
utilizat metoda clasic a lui Lucas-Kanade [104], iar pentru a clasifica pixelul ca staionar
/ nestaionar am utilizat o valoare prag. n Tabelul 6.2 prezentm performana iniial a
descriptorilor HOG, HOF i CN atunci cnd cadrul este mprit n 3x3 regiuni, iar
agregarea frame-urilor se face printr-o simpl medie.
Tab. 6.2 Performana iniial a descriptorilor selectai (acuratee)
Metod Acuratee
Trsturi HoG & SVM liniar 26,01%
Trsturi HoG & SVM RBF 40,06%
Trsturi CN & SVM liniar 13,22%
Trsturi CN & SVM RBF 22,49%
Trsturi HOF & SVM liniar 28,21%
Trsturi HOF & SVM RBF 47,41%
Trsturi HOF & HOG & CN & SVM RBF 53,11%
Cea mai bun performan este obinut de ctre descriptorii HOF, i anume
47,41%. Pe de alt parte, cea mai sczut performan este obinut cu histogramele de
culoare. Acest lucru se datoreaz faptului c informaia de culoare nu este att de
important ca informaia de aciune. Am utilizat informaia de culoare deoarece ne
ateptm ca pentru unele clase s capturm informaie contextual de background,
deoarece anumite sporturi prezint anumite nuane caracteristice, ca de exemplu: tenis i
fotbal conin verde, schi i hockey conine culoarea alb i asa mai departe. De asemeni,
sporturile sunt asociate cu locurile, ca de exemplu: scufundrile se petrece n mediul
subacvatic, golful de desfoar ntr-un mediu natural, .a.m.d. De asemeni, i utilizarea
122
descriptorilor HOG are o motivaie puternic. Aceti descriptori nregistreaz informaia

contextual, deoarece HOG furnizeaz rezultate bune n probleme de recunoatere de
obiecte. Spre exemplu, schiatul i skateboarding-ul, clritul i ciclismul au abloane de
micare similare, ns aciunile se petrec n diferite contexte i cu diferite obiecte
ajuttoare. Combinarea acestora ofer o performan de 53,11%. Dei performana
acestora este sczut, vom demonstra c aceasta poate fi mbuntit prin aplicarea
algoritmului de Fisher kernel.
Pentru optimizarea parametrilor Fisher kernel am utilizat doar jumtate din categorii,
pentru fiecare categorie selectnd doar o treime din grupuri. De asemeni, am utilizat
mecanismul de cros-validare pe cele 8 grupuri.
n acest experiment vom prezenta influena numrului de centroizi GMM asupra
performanei sistemului. Figura 6.5 prezint variaia performanei atunci cnd variem
numrul de centroizi GMM ct i diferena de performan intre performana primilor
descriptori plus a acestora atunci cnd aplicm Fisher kernel. n primul rnd trebuie s
notm c performana acestora crete chiar i atunci cnd utilizm un singur centroid.
Spre exemplu, pentru descriptorii de culoare, performana crete de la 35% la 40%,
pentru descriptorii HOG de la 47% la 55%, n timp ce pentru HOF creterea de
performan este de la 54% la 56%.
Fig. 6.5 Influena numrului de centroizi GMM asupra performanei sistemului (valori
MAP)
123
De asemenea, prin variaia numrului de clusteri, performana acestora nc poate

fi mbuntit. Toi descriptorii nregistreaz un ctig de performan ntre 5% i 10%.
Numrul de clustere care va fi utilizat n urmtorul experiment este: 60 de clustere pentru
HOF i un cluster pentru HOG i pentru CN.
n Tabelul 6.3 este prezentat performana obinut de metoda propus, alturi de a altor
metode din literatur. Se poate observa c metoda noastr obine a doua poziie cu o
performan de 74,01%, dup cea propus de Reddy [108]. Totui, metoda propus
utilizeaz descriptori foarte simpli, cum ar fi HOG, HOF si CN n timp ce metoda din
prima poziie utilizeaz un set de descriptori care genereaz un efort computaional foarte
ridicat. Doar metoda propus de Solmaz [178] utilizeaz descriptori globali (GIST 3D),
ns acetia au o performan mai mic cu 9%.
n final, putem concluziona c metoda propus obine rezultate similare cu cele
prezentate n state-of-the-art, ns aceasta utilizeaz descriptori mult mai rapizi i uor de
implementat.
Tab. 6.3 Comparaie rezultate State-of-the-Art (acuratee)
Metod Acuratee
Reddy et al. [108] 76,9%
Metoda propus 74,01%
Solmaz et al. [178] 73,7%
Everts et al. [109] 72,9%
Kliper-Gross et al. [179] 72,6%
Solmaz et al. [178]: GIST3D 65,3%
6.6 Recunoatere de aciuni cotidiene

O ultim aplicaie propus este cea de recunoatere de aciuni obinuite. n acest context
vom utiliza baza de date ADL (University of Rochester Activities of Daily Living) [180]
care conine 10 tipuri de activiti: a rspunde la telefon, a suna pe cineva la telefon, a
scrie un numr la telefon, a cuta un numr de telefon, a a bea un pahar cu ap, a mnca
cips-uri, a desface o banan, a mnca o banan i a mnca mncare cu furculia. n total,
baza de date conine 150 de documente video, nregistrate cu 30 de frame-uri pe secund
la rezoluia de 1280 x 720. Baza de date conine un set important de provocri: diferite
forme, diferite persoane de naionaliti i etnii diferite, ct i o serie de aciuni care sunt
foarte similare ca: a mnca o banan sau cipsuri, sau a rspunde sau a vorbi la telefon.
124
Multe din activitile prezentate anterior ca mncatul unei banane sau vorbitul la
telefon pot fi definite ca i noiuni de micare n funcie de anumite pri componente ale
corpului unei persoane. Din acest motiv, am extras prile componente ale persoanelor
care efectueaz aciunile respective, utiliznd metoda propus n [110]. Estimarea prilor
componente ale corpului uman prezint performane ridicate atunci cnd filmele conin
un numr mic de ocluziuni iar persoanele sunt vizualizate integral. Un exemplu de
estimare a prilor componente l gsim n Figura 6.6 (a). Apoi, vom selecta o suprafa
adiacent fiecrei componente a corpului uman (Figura 6.6 (b)), iar pentru fiecare regiune
vom extrage o histogram de trsturi HoF.
(a) (b)
Fig. 6.6 (a) Exemplu de estimare prilor componente a corpului uman (b)
suprafa de extragere a trsturilor HoF
Fiecare trstur HoF reprezint o histogram de lungime 8, iar detectorul extrage

18 regiuni. Prin concatenarea histogramelor HOF pentru fiecare regiune vom obine un
descriptor de lungime 144. Acest tip de trsturi reprezint o practic comun n multe
din metodele propuse pentru detecia de aciuni obinuite. Nu am utilizat descriptori
uzuali HOG i CN deoarece pentru aceast baz de date informaia de context nu este
important. Toate aciunile se petrec in interiorul unei camere, iar fudalul este similar
pentru toate filmele.
Performana descriptorilor propui este prezentat n Tabelul 6.4. Se poate
observa c SVM RBF obine un rezultat de 88,10%, ceea ce este similar cu rezultatele
obinute n state-of-the-art.
Metod Acuratee
HoF extras pe pri componente ale corpului & SVM liniar 88,10%
HoF extras pe pri componente ale corpului & RBF 66,41%
125
Pentru optimizarea reprezentrii Fisher vom folosi jumatate din baza de date mprit n
dou pri componente: 37 de filme pentru antrenare i 37 de filme pentru testare, fiecare
avnd o distribuie uniform pentru fiecare activitate.
Singurul parametru care va fi optimizat va fi numrul de centroizi GMM. Figura
6.7 prezint variaia performanei atunci cnd variem numrul de centroizi GMM ct i
diferena de performan intre performana primilor descriptori plus a acestora atunci
cnd aplicm Fisher kernel. n primul rnd trebuie s notm c performana acestora
crete chiar i atunci cnd utilizm un singur centroid (de la 86% la 92%).
Fig. 6.7 Influena numrului de centroizi GMM asupra acurateei sistemului
n Tabelul 6.5 poate fi vizualizat rezultatul final obinut de metoda propus, mpreun cu
alte metode propuse n literatur. Se poate observa c algoritmul Fisher kernel aplicat
prilor componente ale corpului prezint cea mai mare performan, de 97,3% , n timp
ce ceilali algoritmi au obinut o performan cu cteva procente mai redus. n metoda
propus de Wang [181], se utilizeaz un algoritm care printr-o augmentare spaial ia n
considerare relaia spaial dintre punctele de micare de interes. Pe de alt parte, n
metoda propus de Lin [182] distribuia spaial este incorporat prin crearea unei
structuri arborescente.
126
Metod Acuratee
Metod propus 97,3%
Wang et al. [181] 96,0%
Lin et al. [182] 95,0%
Messing et al. [183] 89,0%
6.7 Concluzii capitol

n acest capitol am propus modelul Fisher kernel pentru agregarea i modelarea variaiei
temporale n documentele video. n timp de ordinea temporal este pierdut, variaia
temporal este capturat la dou nivele: trsturile similare sunt grupate mpreun i rein
variaia intra-cluster, n timp ce trsturile nesimilare sunt mprite separat, prevenind
amestecarea informaiei de micare din diferite pri componente.
De asemenea, am demonstrat c metoda propus este foarte general: am artat c
metoda propus mbuntete o mare varietate de trsturi, de la trsturi care utilizeaz
pri componente ale corpului uman, la trsturi vizuale pentru detecia de gen, pn la
descriptori audio clasici. Mai mult, am demonstrat c metoda obine rezultate foarte bune
pe o varietate de baze de date: am obinut rezultate apropiate cu state-of-the-art pentru
baza de date UCF Sport 50 utiliznd descriptori globali n locul descriptorilor mult mai
compleci locali, am reuit s obinem performane mbuntite pe baza de date ADL de
aciuni uzuale prin utilizarea algoritmilor de detecie de pri componente ale corpului
uman, i am obinut rezultate superioare pe baza de date MediaEval 2012 pentru
competiia de detecie de genuri.
n viitor, mi propun s combin metoda Fisher cu alte trsturi mai complexe, cum
ar fi trsturile locale de micare [105]. De asemenea, mi propun s testez metodele
propuse pe baze de date mai mari: pentru detecia de gen mi propun s utilizez baza de
date Youtube, pentru detecia de aciuni sportive s utilizez baza UCF 101, n timp ce
pentru bazele de date de aciuni cotidiene s creez baze de date mai complexe.
127
128
Capitolul 7
Metode de Relevance Feedback

propuse
n acest capitol voi prezenta o serie de algoritmi de relevance feedback propui n cadrul
diferitelor conferine internaionale. n prima parte voi nfia un algoritm de relevance
feedback care combin principii inspirate din metoda clasic de RF Rocchio (Capitolul
7.1) cu trsturi similare celor utilizate n metodele de estimare a importanei
descriptorilor (Capitolul 5.2.3). Aceast metod a fost propus n cadrul conferinei
EURASIP: Signal Processing and Applied Mathematics for Electronics and
Communications (SPAMEC), desfurat la Cluj-Napoca, Romania, august, 2011 [184].
Al doilea algoritm de relevance feedback propus utilizeaz o structur
arborescent capabil s nvee rapid i eficient preferinele utilizatorului chiar dac
utilizm un set restrns de exemple de nvare. Iniial, algoritmul a fost propus ntr-o
variant iniial n contextul bazelor de date de imagini la conferina Signals, Circuits
and Systems (ISSCS), 2011 [185], ca apoi, acesta s fie dezvoltat n cadrul conferinei
Content Based Multimedia Indexing, CBMI 2012, Annecy, Frana [186]. Rezultate
experimentale mai ample au fost apoi prezentate n cadrul conferinei European Signal
Processing Conference EUSIPCO 2012, desfurat la Bucucureti n august 2012 [187].
Mai mult, algoritmul a fost adaptat i n contextul indexrii de baze de date multimedia n
cadrul conferinei International Conference on Intelligent Computer Communication
ICCP 2012 [188], ca apoi algoritmul s fie extins i testat pe baze de date de dimensiuni
mai mari n revista cotat ISI Media Tools and Applications [120].
Ultimul algoritm propus este inspirat din modelul Fisher kernel i a fost acceptat
la conferina International Conference on Multimedia Retrieval ICMR 2013,
desfurat la Dallas, USA n aprilie 2013 [189]. Acest algoritm a fost special creeat
pentru baze de date multimedia, fiind testat pe baza de date MediaEval 2012. Mai mult,
algoritmul a fost testat pe o gam variat de trsturi multimodale: de la trsturi vizuale,
la cele audio i textuale, fiind comparat cu diferii algoritmi de relevance feedback
existeni.
129
7.1 Algoritm propus de Relevance Feedback cu

estimare a importanei trsturilor
7.1.1 Prezentare algoritm
Algoritmul de estimare a relevanei trsturilor [129] pleac de la premiza c anumite

valori din vectorul descriptor sunt mai importante dect altele. n cazul n care anumite
obiecte au valori similare nseamn ca acestea au un grad de relevan mai mare n
descrierea grupului de documente cutat. Pe de alt parte, dac valorile componentelor
difer n mod substanial, indic faptul c acele valori pot s nu fie luate n considerare.
Bazndu-se pe aceast analiz simpl, Rui i Huang [143] au considerat c valoarea
deviaiei standard este invers proporional cu gradul de relevan al parametrului. Marele
neajuns al algoritmului este c nu utilizeaz feedback-ul negativ al utilizatorului. n cazul
n care o caracteristic a vectorului descriptor are o distribuie similar att pentru valori
negative ct i pentru cele pozitive, algoritmul nu va fi capabil s le separe. Din aceast
cauz algoritmul trebuie s fie capabil sa aplice penalizri bazate pe feedback negativ.
O alt proprietate definitorie pentru creterea importanei unei trsturi este media
acesteia. O trstur cu medie mai ridicat este mai important dect una cu medie
sczut, deoarece existena unei trsturi comune este mult mai important din punct de
vedere perceptual, dect absena sau prezena ntr-o proporie mult redus. Un alt factor
care poate fi luat n considerare este reprezentat de gradul de corelare al trsturilor. n
cazul n care o trstur este strns nlnuit de o alt trstur, aceasta este mult mai
important deoarece sugereaz c trsturile respective sunt definitorii pentru conceptul
nostru. O alt modificare propus algoritmului lui Rui [143] este modificarea punctului
de interogare. Plecnd de la premiza c fiecare document reprezint o variabil aleatoare
ntr-un spaiu multidimensional de distribuie gausian, prin mutarea punctului de
interogare n centroidul clasei, vom maximiza probabilitatea de gsire a documentelor din
cadrul clasei respective. Acest principiu de mutare a punctului de interogare fost
mprumutat din algoritmul lui Rocchio, ns, spre deosebire de acesta, vom utilizeaza
numai feedback pozitiv. Conform algoritmului propus, noul punct de interogare va fi
calculat ca medie a feddbackului pozitiv, , n timp ce ponderile de importan a
trsturilor vor fi calculate n modul urmtor:
(7.1)
unde reprezint dispersia trsturilor obiectelor nerelevante, dispersia

trsturilor pentru obiectele relevante, k reprezint un parametru empiric ales,
este media trsturilor relevante iar este gradul de corelare a trsturilor.
130
O reprezentare grafic a conceptului de micare a punctului de interogare i de

reestimare a importanei trsturilor este prezent n Figura 7.1.
Fig. 7.1 Ilustrare schematic a algoritmului modificat de estimare a relevanei

caracteristicilor.
Schema logic a algoritmului este prezentat n Figura 7.2. Primul pas const n
calculul ponderilor trsturilor relevante i nerelevante (valorile ). Apoi, se calculeaz
centroidul documentelor relevante i se va muta noul punct de interogare. n final, se
genereaz o nou interogare i se va afia un nou set de rezultate. Utilizatorul poate
selecta noile imagini relevante iar ciclul se poate repeta pn cnd rezultatele returnate
sunt satisfctoare.
Fig. 7.2 Schema logic a algoritmului modificat de estimare a relevanei

caracteristicilor.
131
7.3 Rezultate experimentale
Pentru testarea metodei am utilizat dou baze de date de imagini. Prima baz de date
conine 2700 de imagini naturale, preluate de pe internet utiliznd cutri specifice pe
motorul de cutare Google. Baza de date conine o gam larg de categorii, ca de
exemplu: anotimpuri, cldiri, ocean, deert, copii, concerte, portrete, picturi, orae
faimoare (Londra, Paris etc), persoane, sport, animale, mncare, coninnd un total de
100 de clase cu 27 de imagini per clas. A doua baz de date este baza de date Vistex de
texturi.
Pentru descrierea coninutului vizual am utilizat descriptorul de culoare MPEG 7
Color Histogram Descriptor (CHD) [47]. Alegerea este justificat de nevoia de a
compara performana i viteza algoritmilor de relevance feedback i nu a performanei
trsturilor. Descriptorul CHD este implementat n spaiul de culoare HSV, avnd
urmtoarea structur: 16 elemente de nuan, 4 de saturaie i 4 de luminan.
Comparaie cu State-of-the-Art
Algorimii de relevance feedback cu care vom compara performana sunt: Rocchio [139],
Estimare a importanei feedback-ului (RFE) [129] i algoritmul Robertson Spark-Jones
[149].
Pentru compararea rezultatelor am utilizat graficele precizie-reamintire i precizia
medie. Rezultatele sunt prezentate n Figura 7.3. Se poate observa c metoda propus
obine cea mai ridicat performan att pentru baza de date de imagini de textur, ct i
pentru baza de date de imagini naturale, n ambele cazuri mbuntirea de performan
fiind de peste 3 - 7 procente.
(a) (b)
Fig. 7.3 Graficele Precizie-Reamintire pentru o sesiune de feedback: (a) baza de date de
texturi i (b) baza de date de imagini naturale
132
n Figura 7.4 sunt prezentate performanele algoritmilor pentru mai multe sesiuni
de feedback. Se poate observa c performana sistemului crete n mod semnificativ n
toate cazurile atunci cnd aplicm algoritmii de relevance feedback. Spre exemplu, prin
aplicarea algoritmului propus n cazul bazei de date de textur, performana crete de la
71% la 87%, n timp ce pentru baza de imagini naturale rata de recunoatere aproape se
dubleaz de la 37% la 60% MAP. Mai mult, algoritmul propus obine rezultate superioare
fa de ceilali algoritmi. Spre exemplu, n cazul imaginilor de textur metoda propus are
o performan mai ridicat cu peste 2 procente mai ridicat dect RFE i cu 8 procente n
cazul bazei de imagini naturale.
(a) (b)
Fig. 7.4 Variaia MAP pentru mai multe iteraii de feedback: (a) baza de date de texturi
i (b) baza de date de imagini naturale
7.2 Relevance feedback cu clusterizare ierarhic

Algoritmul de clusterizare ierarhic [190] reprezint o metod de analiz a datelor care i

propune partiionarea datelor n clustere. Dup modul de realizare a clusterizrii,
algoritmul se clasific n dou categorii: aglomerativ (clustering bottom-up) i diviziv
(clustering top-down). Clusterizarea ierarhic aglomerativ (HAC) caut n mod
repetitiv cele mai similare perechi de clusteri, dup care perechile cele mai similare se
unesc n partiii mai mari. Astfel, numrul clusterilor scade n mod succesiv cu fiecare
iteraie. Pe de alt parte, clusterizarea diviziv grupeaz iniial spaiul descriptorilor ntr-o
singur partiie, iar apoi acesta de mparte succesiv n mai multe clustere.
n continuare, vom propune un algoritm de relevance feedback care utilizeaz
algoritmul de clusterizare ierarhic aglomerativ. Iniial, utilizatorul selecteaz un model
133
pe baza cruia se efectueaz o interogare n baza de date. Sistemul returneaz o serie de

documente, dup care, utilizatorul va selecta doar documentele care sunt relevante pentru
cutarea sa. Pe baza feedback-ului utilizatorului, clusterizarea ierarhic creeaz o ierarhie
arborescent a datelor (denumit dendogram). Documentele vor fi grupate n dou tipuri
de clustere: partiii de documente ce conin numai documente relevante i grupri de
documente nerelevante. Pentru ca acest algoritm s poat funciona, se pornete de la
ideea c descriptorul este suficient de bun astfel nct printre documentele iniial
prezentate de sistem s se gseasc cel puin cteva documente relevante pentru a fi
selectate de ctre utilizator. La fiecare feedback al utilizatorului, documentele prezentate
sunt clusterizate n partiii de documente similare / nesimilare. Pe baza acestor partiii
antrenate cu feedback-ul utilizatorului, sistemul va reordona restul de documente din baza
de date n funcie de apartenena lor la o partiie de documente.
D (a) (b)
Fig 7.5 Arhitectura unei reele de clusterizare ierarhic a) aglomerativ, b) diviziv
Schema algoritmului propus conine urmtorii pai:

- sistemul returneaz o list de documente;
- se iniializeaz algoritmul de clusterizare ierarhic cu documentele iniial afiate de
ctre sistem;
- utilizatorul marchez documentele relevante;
- se iniializeaz mecanismul de clusterizarea ierarhic. Partiiile de documente cele
mai similare se combin n mod succesiv. Clusterizarea se termin atunci cnd
numrul de clustere rmase este relevant pentru conceptul curent. Exist mai multe
condiii de finalizare ale clusterizrii care vor fi prezentate ulterior;
- se clasific imaginile neafiate de ctre sistem ca fiind relevante sau nerelevante n
funcie de distana acestora ctre clusterele de imagini relevante / irelevante;
- n cazul n care rezultatele nu sunt satisfctoare se poate repeta nc un pas de
relevance feedback.
134
Fig. 7.6 Versiunea n pseudocod a algoritmului de Relevance Feedback cu clusterizare

ierarhic
Versiunea n pseudocod a algoritmului este prezentat n Figura 7.6. Au fost

utilizate urmtoarele notaii: reprezint numrul de imagini aflate ntr-o fereastr de
cutare, este numrul de clustere din arborele final, sim[i][j] indic distana
dintre clusterii i (de exemplu distana dintre centroizi), reprezint numrul de
minim clase din arborele final n faza de antrenare (va fi prezentat mai trziu), este
numrul maxim de imagini n care are loc cutarea (setat la un sfert din numrul total de
imagini din baza de date), numrul maxim de imagini care pot fi clasificate ca i
pozitive (care este setat implicit la valoarea dimensiunii ferestrei de cutare), TP
reprezint numrul de imagini care sunt relevante, iar imagine_curent este indexul
curent al documentului analizat. Un pas important n algoritmul de clusterizare ierarhic
este reprezentat de selecia metricii care calculeaz gradul de similaritate dintre dou
clustere. Cele mai utilizate msuri sunt:
- legtur simpl (single linkage) distana dintre clustere este determinat de
distana dintre cele mai apropiate obiecte:
135
- legtur complet (complete linkage) - distana dintre clustere este determinat de

distana dintre cele mai ndeprtate puncte:
- legtur medie (average linkage) - n acest caz distana este calculat ca o medie a
tuturor distanelor dintre obiecte
- legtura ward - reprezint suma ptratelor distanelor din interiorul unui cluster i
centroidul acestora:
(7.2)
unde clusterul A conine m obiecte iar B conine n obiecte.
- legtura ntre centroizi (centroid linkage) reprezint distana dintre centroizi.
Aceast distan poate fi utilizat doar dac se folosete distana euclidian:

unde
Fig. 7.7 Metode de unificare a clusterelor: a) legtur complet, b) legtur simpl, c)

legtur medie i d)legtur ntre centroizi
Tipul metricii este foarte important deoarece influeneaz forma clusterelor. Spre
exemplu, n cazul n care alegem ca i criteriu de similaritate distana cea mai apropiat
dintre dou elemente (single linkage), forma clusterelor poate deveni neuniform
(asemenea unei banane sau gogoi). Pe de alt parte, alegerea unei legturi medii va
genera clusteri uniformi.
Clusterizarea se realizeaz pn cnd se execut o condiie de finalizare. Exist
dou variante de finalizare: cnd un numr fix de clustere este atins, sau un numr
variabil adaptiv de clustere n funcie de un algoritm. O prim variant de calcul a
metodei adaptive a fost propus n [185] i utilizeaz formula urmtoare:
136
(7.3)
unde reprezint distana minim dintre doi clusteri iar reprezint
distana maxim dintre doi clusteri. n cazul n care d are o valoare apropiat de zero
nseamn c vom avea un set de clusteri compact (distanele dintre clustere vor avea
valori foarte apropiate), iar n cazul valoarea lui d va tinde la unu vom avea perechi de
clustere neregulate.
O alt variant de algoritm propus este criteriul arcului [186]. Numrul minim
de clustere este determinat n punctul n care daca vom creea un nou cluster acesta nu va
aduga un plus de informaie (diferena varianei inter-cluster va fi minim). Mai precis,
punctul de inflexiune este cel n care valoarea gradientului distanei inter-cluster este
maxim.
Fig. 7.8 Reprezentare grafic pentru regula arcului
7.2.2 Rezultate experimentale obinute pe baze de imagini
Aceste rezultate experimentale au fost publicate n cadrul conferinei Content Based

Multimedia Indexing (CBMI) 2012 Annecy i n cadrul conferinei Eusipco 2012
Bucureti. n cadrul acestor lucrri am propus o nou metod de relevance feedback care
utilizeaz algoritmi de clusterizare ierarhic.
Descriere experiment
Experimentele au fost rulate pe cteva baze de date clasice i anume:
137
baza de date Microsoft (Microsoft Object Class Recognition) baza de date Microsoft
(Microsoft Object Class Recognition) [191] care cuprinde un numr de 4300
imagini grupate n 21 de categorii;
baza de date Caltech 101 [192] cu un numr de 9146 de imagini mprite n 101 de
categorii distincte (persoane, animale, instrumente, evenimente etc). Exemple de
imagini din baza de date se gsesc n Figura 6.13.
Pentru descrierea coninutului vizual au fost utilizate trei categorii de descriptori:
descriptori MPEG-7 [47]: Color Histogram Descriptor, Color Layout Descriptor,

Edge Histogram Descriptor i Color Structure Descriptors;
descriptori clasici de culoare: autocorelograma [59], vectori coereni / necoereni [51]
i momente de culoare [50].
Bag-of-Visual-Words utiliznd SURF [78].
Fig 7.9 Exemple de imagini din bazele de date utilizate (primele dou rnduri reprezint
imagini din baza de date Microsoft iar urmtoarele dou rnduri din baza de date
Caltech 101 2 imagini per categorie)
Feedback-ul utilizatorului a fost simulat automat (gradul de apartenen al fiecrei

imagini la o categorie fiind tiut anterior). Acest tip de simulare reprezint o practic des
folosit n algoritmii de relevance feedback [143] [149] [193]. Acest tip de simulare
nltur ns cazurile n care utilizatorul marcheaz eronat anumite imagini. Pentru a
msura performana algoritmilor sunt utilizate curbele precizie reamintire i media
preciziilor medii (MAP). Fiecare imagine din baza de date a fost folosit ca imagine de
interogare, aceasta fiind eliminat din setul de rezultate. Experimentele au fost efectuate
pe diverse dimensiuni de ferestre cuprinse ntre 20 i 50. Algoritmii comparai sunt:
Rocchio [139], Estimare a importanei feedback-ului (RFE) [129], SVM (Support
Vector Machines) [149], relevance feedback cu arbori de decizie (TREE) [194],
138
relevance feedback cu AdaBoost (Boost) [193], relevance feedback cu Random forests

(RF) [195] i metoda propus de RF cu clusterizare ierarhic (HCRF) [185].
Alegerea parametrilor algoritmului
Primele teste efectuate asupra algoritmului de clusterizare ierarhic au rolul de a gsi

configuraia optim a parametrilor pentru alegerea numrului de clustere. n Figura 7.10
este prezentat variaia performanei pe bazele de date Microsoft i Caltech 101 n funcie
de variaia numrului de clustere. Pentru generarea graficului am variat numarul de
clustere de la valoarea minim de dou clustere (un cluster cu documente relevante i un
cluster cu documente nerelevante) pn la numrul maxim de clustere (dimensiunea
ferestrei de afiare). Se observ c numrul optim de clustere difer de la o baz de date
la alta, n funcie de metoda de unificare a clusterelor. Tot n aceast figur este
prezentat i performana algoritmului n cazul n care se selecteaz metoda arcului.
Se observ c utiliznd un numr fix de clustere putem avea performana cea mai
ridicat, dar, acesta trebuie calculat n funcie de experiment i baza de date utilizat.
Fig 7.10 Variaia MAP n funcie de numrul de clustere utiliznd cele patru metode de
unificare a clusterelor (distana medie, minim, maxim si distana dintre centroizi)
Utiliznd metoda arcului obinem rezultate foarte apropiate de cele n care

utilizm un numr fix de clustere, nsa nu vom avea nevoie sa calculm valoarea optim a
numrului de clustere. n Figura 7.11 este prezentat performana algoritmului prin
varierea parametrului d definit n prin Formula 7.3. Se observ c o variant bun, ar fi
alegerea unei valori de tiere n intervalul [0.88; 0.92].
139
Fig. 7.11 Variaia MAP n funcie de parametrul d de disimilaritate, utiliznd baza de

date Vistex
Comparaie cu State-of-the-Art
Urmtorul set de experimente prezint o comparaie a algoritmului propus HCRF cu

algoritmi clasici de relevance feedback. Experimentele expuse n Figura 7.12, arat c
toi algoritmii realizeaz o real mbuntire a performanelor sistemului, avnd
performane ncepnd cu 20% mai ridicate. Cele mai bune performane au fost realizate
utiliznd baza de date Microsoft deoarece conine un numr mai mic de imagini i de
categorii distincte. n cele mai multe cazuri, algoritmul HCRF tinde sa aib cele mai bune
rezultate (linia neagr din Figura 7.12).
Cea mai mare cretere de performan este obinut utiliznd setul de descriptori
MPEG 7 pe baza de date Microsoft (de la MAP egal cu 30,21% pn la MAP egal cu
64,52%). Cea mai mic cretere de performan este obinut pe baza de date Caltech 101
folosind Bag Of Visual Words (SURF) i anume de la MAP egal cu 10,90% pn la
18,44%. Aceast performan sczut se datoreaz n primul rnd diversitii bazei de
date, descriptorii SURF oferind o putere de reprezentare redus fa de descriptorii
clasici. Deoarece rspunsul iniial ofer o cantitate mic de imagini relevante, sistemul
este n imposibilitatea de a se antrena.
140
Fig. 7.12 Curbele Precizie Reamintire pentru bazele de date Caltech 101 i Microsoft
utiliznd descriptorii de culoare, MPEG7 i Bag of Words (SURF)
n Figura 7.13 prezentm variaia MAP n funcie de sesiuni multiple de feedback. n

cadrul acestui experiment, cele mai bune rezultate au fost obinute utiliznd RF cu
clusterizare ierarhic. Performane mai mici, dar apropiate, se obin utiliznd relevance
feedback cu estimare a importanei trsturilor. Dup fiecare sesiune de feedback se
poate observa c performana crete cu fiecare sesiune (ns diferena de cretere de
performan este descresctoare). Spre exemplu, dup patru sesiuni de feedback, cea mai
bun cretere de performan este obinut pe Microsoft de la 30,21% la 84,71%, n timp
ce pentru Caltech 101 se obine o cretere de la 10,66% la 55,78%. Prin comparaie,
metoda de relevance feedback cu estimare a importanei trsturilor realizeaz o cretere
a performanei cu cateva procente mai sczute (3% pn la 6% mai sczute).
Fig 7.13 Performana sistemului atunci cnd variem numrul de iteraii de feedback pe
baza de date Caltech 101 si Microsoft (valori MAP)
141
Influena metricilor de similaritate asupra performanei algoritmilor de

relevance feedback
Urmatoarele experimente au rolul de arta influena metricilor de similaritate asupra

performanei algoritmilor de relevance feedback. Metoda de msurare a similitudinii
dintre dou documente este extrem de important i trebuie s corespund judecii
umane, altfel, precizia sistemului va fi sczut.
Fig. 7.14 Performana descriptorilor pe bazele de date Microsoft si Caltech folosind

diveri descriptori n combinare cu o gam divers de metrici
Pentru a arta impactul asupra performanei sistemelor bazate pe cutare pe

coninut, aceast lucrare i propune s fac un studiu comparativ asupra a 19 metrici de
calcul a similitudinii imaginilor, i anume: distana Euclidean, Manhattan, msuri
probabilistice: Canberra i Bray-Curtis, Squared-Chored, Matusita, Bhattacharyya,
Pearson, Clark, Cosinus, Lorentzian, Soergel, Czekanowski, Motika, Ruzicka, Tanimoto,
Chi-Square, Jefrey i Dice. Primul experiment evideniaz influena metricilor pe diveri
descriptori: set de descriptori MPEG-7 (Color Histogram Descriptor, Color Layout
Descriptor, Edge Histogram Descriptor i Color Structure Descriptors), set de descriptori
clasici (autocorelograma, Color Coherence Vectors i momente de culoare) i Bag of
Words (cu un dicionar de 1000 de cuvinte) utiliznd: SURF, SIFT, Good Features to
Track (GOOD), STAR, Accelerated Segment Test (FAST), Maximally Stable Extremal
Regions (MSER) i Harris.
n primul experiment am analizat influena metricilor de similaritate asupra
performanei unui sistem clasic de cutare a imaginilor dup coninut. n acest sens vom
utiliza metoda celor mai apropiai vecini. Figura 7.14 prezint valorile MAP obinute pe
cele dou baze de date utiliznd setul de descriptori menionai anterior. Dei descriptorii
142
prezint performane medii mult diferite, se observ c utilizarea unei metrici adecvate
poate juca un rol critic n rezultatele finale ale sistemului. n cazul bazei de date
Microsoft, cele mai bune rezultate sunt obinute utiliznd combinaia: set descriptori
MPEG 7 i distana Bhattacharyya, cu un MAP de 57%. Urmtoarele rezultate sunt egale
cu 55% i 54%, utiliznd distanele Canberra, respectiv Clark, pe setul de descriptori de
culoare. Aceste valori reprezint o mbunatire de 18 procente faa de valoarea
performanei medii a descriptorului MPEG 7.
Rezultatele vor fi sensibil mai mici n cazul bazei de date Caltech 101. Principalul
motiv pentru care baza Caltech 101 conine rezultate mai slabe se datoreaz numrului de
cinci ori mai ridicat de clase care trebuie clasificat. Acurateea cea mai mare este obinut
utiliznd descriptorii Bhattacharyya i Canberra (valori MAP de 23,4% respectiv 23,2%).
n acest caz vom avea mbuntiri de cel puin 5% fa de valoarea medie a performanei
descriptorului. n ceea ce privete efortul computaional, trebuie luat n considerare c
distana Bhattacharyya este soluia cea mai costisitoare. De asemenea, se observ c
anumite metrici sunt adaptate pe structura anumitor descriptori. Spre exemplu, distanele
Bhattacharyya i Canberra au perfomane slabe pe setul de descriptori Bag-of-Visual-
Words (de observat SURF, SIFT, Harris i GOOD n Figura 7.15). Un alt caz interesant
este cel al distanei euclidiene, care n ciuda popularitii sale obine rezultate sczute n
marea majoritate a experimentelor.
n experimentele anterioare se observ c performanele pe testere de cutare este
relativ sczut. Din acest motiv, ncercm s aplicm algoritmi de relevance feedback
asupra experimentelor de cutare. Vom compara metoda propus HCRF asupra altor
algoritmi clasici de Relevance Feedback: algoritmul Rocchio [139], Relevance Feature
Estimation (RFE) [143], RF utiliznd Vectori Suport (SVM) [150], Arbori de decizie
(Tree) [194], AdaBoost (BOOST) [193], Random Trees [193], Gradient Boosted Trees
(GBT) [193] i algoritmul celor mai apropiai vecini (Nearest Neighbor - NN) [196].
Pentru fiecare descriptor i metric vom efectua un experiment cu fiecare algoritm de
relevance feedback. Din motive evidente, nu vom prezenta dect rezultatele cele mai
importante n Tabelul 7.1:
Tab. 7.1 Top trei performane pentru bazele de date Microsoft i Caltech 101 (MAP).
Baza de date Microsoft

Descriptor primul MAP al doilea MAP al treilea MAP
MPEG 7 HCRF - 80% BOOST - 72% NN 72%
Descriptori de culoare HCRF 80 RFE - 68% BOOST - 68%
Baza de date Caltech 101
Descriptor primul MAP al doilea MAP al treilea MAP
MPEG 7 HCRF - 32% RFE - 28% GBT - 27%
SURF HCRF - 32% BOOST - 27% NN - 26%
n toate experimentele efectuate, algoritmii de relevance feedback mbuntesc
performanele de sistemelor CBIR. Spre exemplu n cazul bazei de date Microsoft,
143
performana este mai ridicat la MAP 80%, fa de 57% ct obinem fr relevance

feedback (mbuntire de 23 procente). Pe baza de date Caltech 101 vom avea o
mbuntire de 9 procente de la 23% la 32%. Clusterizarea ierarhic are cele mai bune
rezultate n marea parte a experimentelor. Pentru baza de date Microsoft, cea mai mare
cretere de performan este obinut cu descriptorii MPEG-7, cu 8% fa de a doua
poziie obinut prin utilizarea algoritmului BOOST; pe baza Caltech-101, cele mai bune
performane se obin pe setul de descriptori SURF, pe a doua poziie aflndu-se tot
BOOST la o diferen de cinci procente.
Fig. 7.15 Acurateea algoritmilor de relevance feedback pentru diveri descriptori i

metrici (valori MAP).
Precizii sczute au fost obinute cu descriptorii FAST, STAR i MSER pe toi

algoritmii de relevance feedback. De asemeni experimentele arat c performana
algoritmilor de relevance feedback depinde mult de alegerea metricii folosite i a
descriptorului utilizat. Metricele Canberra i Bhattacharyya au cele mai bune performane
pentru seturile de descriptori clasici ca MPEG 7 i descriptori de culoare, n timp ce
Tanimoto are cea mai bun performan pe Bag of Visual Words.
n urma efecturii experimentelor prezentate anterior, pe doua baze de date
publice cu imagini naturale, cele mai bune rezultate le-am obinut n mod constant
utiliznd algoritmul relevance feedback cu clusterizare ierarhic.
7.2.3 Rezultate experimentale obinute pe baze de documente video
Aceste rezultate experimentale au fost publicate n dou articole i anume: un articol la

conferina ICCP Cluj 2011 i un articol de revist la revista Media Tools and
Applications 2012. Pentru testare am utilizat dou baze de date: o baza de date de test (cu
144
un numr redus de clase i numr de documente), mpreun cu baza de date MediaEval

2011 utilizat n cadrul competiiei de MediaEval Tagging Task 2011 (Pisa, Italia).
Prima baz de date de documente video conine material multimedia cu o durat
total de 91 de ore dintre care: 20 ore i 30 minute pentru filme de animaie (filme scurte,
lungi i seriale), 15 minute de reclame, 22 ore de documentare (viaa slbatic, ocean,
orae i istorie), 21 ore i 57 minute de filme, 2 ore i 30 minute de videoclipuri (pop,
rock i dance), 22 ore de tiri i o ora i 55 minute de sport (fotbal) (un total de 210
documente video, 30 pe gen).
A doua baz de date este MediaEval 2011, creeat pentru taskul de clasificare a
filmelor dup gen n cadrul concursului MediaEval. Filmele au fost preluate de pe
platforma de televiziune online blip (vezi http://blip.tv/). Baza de date const n alegerea
a 2375 de documente video (aproape 300 de ore) i anume: art (66), autoturisme (36),
business (41), jurnale de calatorie (92), comedie (35), conferine i evenimente (42),
documentare (25), educaional (111), mncare i butur (63), jocuri (41), sntate (60),
literatura (83), filme de televiziune (77), muzic i divertisment (54), bibliografie (13),
politic (597), religie (117), scoali educatie (11), sport (117), tehnologie (194), mediu
nconjurator (33), media (47), cltorii (62), videoblogging (70), dezvoltare de site-uri
web (40) i fr nici o categorie (248).
Pentru msurarea performanei vom calcula aceiai doi parametri: curbele
precizie-reamintire i media preciziilor medii (MAP). Feedback-ul utilizatorului este
simulat automat pe baza informaiei de apartenena cu care a fost adnotat fiecare
document video. Experimentele au fost efectuate pe o ferestre de dimensiune fix de 20,
30 i 40 de documente video. Observaiile generale asupra algoritmilor i interpretarea
acestora rmn valide ns pentru ferestre de dimensiuni variabile.
Rezultate experimentale pe baza date video de test
Aceste rezultate experimentale au fost publicate n cadrul conferintei ICCP Cluj 2011
[188]. n cadrul acestei conferine am propus metoda de relevance feedback cu clasificare
ierarhic cu aplicare pe bazele de date multimedia. Coninutul vizual a fost descris
implementnd trei tipuri de descriptori: de culoare, aciune i contur. Pentru testare am
ales trei combinaii de descriptori: culoare mpreun cu aciune, contur individual i un
descriptor ce conine combinarea celor trei descriptori concatenai. Pentru comparaie cu
metoda aleas am folosit patru algoritmi clasici de relevance feedback: Rocchio [139],
Robertson Starck-Jones, algoritmul de estimaie a importanei descriptorului [143],
relevance feedback utiliznd vectori suport (SVM) [150] i Relevance Feedback cu
clustering ierarhic [188].
145
Fig. 7.16 Precizia calculat pe fiecare categorie de film pentru diferii descriptori (de
sus in josi de la stnga la dreapta): Color & Aciune, Contur, Contur & Culoare &
Actune; dup o singur sesiune de preluare feedback. n toate graficele sunt prezentate
performantele descriptorului iniial (bluemarin), Rochio (albastru), Robertson Spark
Jones RF (cyan), FRE RF (galben), SVM (rou) i HCRF (magenta).Categoriile
prezentate sunt: 1 Animaii, 2 Reclame, 3 Documentare, 4 Filme, 5 Videoclipuri,
6 tiri, 7 Sport.
Curbele precizie-reamintire sunt prezentate n Figura 7.16. Graficele arat c

algoritmul de clusterizare ierarhic, mpreun cu SVM i RFE, mbuntesc performana
obinut cu cel mai mare procent: clusterizarea ierarhic n nou cazuri (animaii,
reclame, videoclipuri i sport), RFE n opt experimente (tiri, filme documentare i sport)
iar SVM n patru experimente(animaii i sport).
n Figura 7.16 sunt prezentate preciziile medii pentru fiecare gen n parte. Cea
mai mare crestere n performan este obinut cu clusterizarea ierarhic pe categoria
tiri: de la 17,7% la 82%, n timp ce cea mai mic rat este obinut pentru filme i
documentare (de la 32% la 42% i de la 54% la 82%). Motivul pentru care cutarea de
tiri are o performan foarte ridicat se datoreaz faptului c este o clas foarte
compact, n timp ce filmele i documentarele sunt foarte diversificate. La nivel global,
metoda de clusterizare ierarhic prezint, din nou, cele mai bune rezultate. Cea mai mare
diferen de performan a fost obinut pe setul doi i setul trei de descriptori (de la 57%
la 90%, n timp ce SVM i FRE au avut 82% respectiv 84%).
146
Fig. 7.17 Graficele precizie reamintire pentru diveri descriptori (de sus n jos i de la
stnga la dreapta): Culoare & Aciune , Contur i Culoare & Actune & Contur artnd
performana sistemului dup o iteraie de feedback. n fiecare grafic este desenat
performana descriptului classic ( linie punctat), Robertson Spark Jones RF (punct i
linie ), FRE RF (linii intrerupte), Rocchio RF (linie continu cu cercuri) , SVM RF (linie
continui HC RF (linia continu de deasupra).
Tab. 7.2 Performana medie obinut pe baza de date de test (valori MAP)
Descriptor iniial (fr feedback) 40.82%

Rocchio 58.20%
Robertson/Starck-Jones 55.83%
FRE 68.48%
Support Vector Machines 70.28%
Hierarchical Clustering RF 76.61%
Se observ c rezultatele interogrii sunt sub ateptri pentru algoritmii Rocchio

i Robertson-Sparck-Jones. Performana acestora este mai scazut ncepnd cu 10 pn la
30 de procente fa de algoritmul de clusterizare ierarhic. Principalul motiv pentru care
cei doi algoritmi au rezultate mai slabe se datoreaz faptului c lungimea vectorului
descriptor pentru documente video este foarte mare, fa de descriptorii pentru imagini.
Aceai problem au i algoritmii de relevance feedback care folosesc clasificare (SVM)
147
lungimea spaiului descriptorului este mult mai mare dect numrul de documente folosit
pentru antrenare.
Rezultate experimentale pe baza MediaEval 2011
Aceste rezultate experimentale au fost publicate n cadrul revistei cotate ISI Multimedia
Tools and Applications [120]. n cadrul acestei lucrri am propus un nou algoritm de
relevance feedback care utilizeaz algoritmul de clusterizare ierarhic.
Pentru descrierea coninutului multimedia am utilizat trei tipuri de descriptori:
- descriptori de culoare: histograma global ponderat [120], histograma elementar
de culoare (distribuia nuanelor elementare de culoare din document), histograma
proprietilor de culoare (proporia de culori puternic saturate, slab saturate, culori
reci i culori calde) i histograma relaiilor de culoare (procentul de culori perceptual
apropiate i procentul de culori perceptual diferite)
- descriptori audio: Descriptorii audio folosii sunt descriptori pe baz de blocuri
audio, i au o lungime egal cu 11.242 valori per descriptor. Acetia au rolul de a
captura nformaia i proprietile temporale ale semnalului audio. Semnalul audio
este mprit n blocuri de dimensiune fix, iar apoi pentru fiecare bloc se calculeaz
paternul spectral (Spectral Pattern care captureaz puterea semnalului audio),
paternul de fluctuaie logaritmic (Logarithmic Fluctuation Pattern care prelucreaz
informaia de ritm), Spectral Contrast Pattern i Correlation Pattern care reprezint
relaia temporal a intesitii de schimbare a semnalului i trsturi de timbru: Local
Single Gaussian Model i Mel-Frequency Cepstral Coefficients. Secvenele sunt
agregate utiliznd media, variana i medianul pentru toate blocurile audio calculate.
- descriptori temporali: Acetia analizeaz gradul de dinamizare a cadrelor video. n
acest scop sunt extrase cuts i tranziiile graduale. Cut-urile sunt detectate prin
utilizarea unei metode pe baz de schimbare de histogram, n timp de fades i
dissolves sunt detectate prin algoritmi statistici. Parametrii calculai n descriptorii
temporali sunt: ritmul, aciunea i rata gradual de tranziie.
Figura 7.18 prezint graficele precizie-reamintire pentru ferestre de 20, 30, 40 i
50 de documente video. Algoritmul de relevance feedback cu clusterizare ierarhic
prezint cele mai bune rezultate fa de algoritmii clasici de RF: Rocchio [139], Feature
Relevance Estimation (RFE) [143], Support Vector Machines [120]. Se poate observa c
cele mai bune performane se realizeaz pe ferestre de vizualizare mai mici (20-30 de
documente).
Tabelul 7.3 prezint performanele MAP ale algoritmilor pe cele 4 ferestre de
vizualizare. Pentru metoda propus gama de variaie cuprinde intervalul 41.8% pn la
51.3%, care reprezint o cretere de performan cu cateva procente fa de algoritmii
clasici de relevance feedback. Relevance feedback se dovedete a fi o alegere bun pentru
148
a mri performana sistemelor de cutare a documentelor video, fiind capabil sa aduc

performane similare cu descriptorii de text de nivel inalt.
Fig. 7.18 Grafice Precizie Reaminitire pentru o sesiune de relevance feedback pe patru
ferestre de afisare (20, 30, 40 si 50 de documente afiate)
Tab. 7.3 Performana sistemului pentru diferite ferestre de afisare (valori MAP).
Algoritmul de Relevance 20 30 40 50
Feedback documente documente documente documente
Rocchio 46,8% 43,84% 42,05% 40,73%
FRE 48,45% 45,27% 43,67% 42,12%
SVM 47.73% 44,44% 42,17% 40,26%
HCRF 51.27% 46,79% 43,96% 41,84%
7.3 Aplicarea reprezentrii Fisher kernel n Relevance

feedback
Acest algoritm de relevance feedback [189] este inspirat din teoria Fisher kernel,
prezentat n Capitolul 6. Metoda propus de relevance feedback conine urmtorii pai:
alterarea trsturilor prin utilizarea feedback-ul i etapa de reordonare a noilor trsturi.
149
Utiliznd un singur document ca i nterogare (query by example), ordonm toate

documentele din baza de date prin utilizarea unei metrici de similaritate. Apoi,
utilizatorul marcheaz din primele n documente acele documente care sunt relevante,
unde n este de obicei un numr mic (de obicei ntre 10 i 50 pentru experimentul nostru
am utilizat 20 documente). Pe baza feedback-ului oferit de utilizator, se antreneaz un
model GMM.
Urmtorul pas este de a transforma descriptorii urmtoarelor k documente (k n
intervalul [300..2000]), ca i derivate pariale fa de modelul GMM antrenat. Parametrul
k se alege din raiuni de vitez, dar i deoarece probabilitatea de regsire a documentelor
relevante este mai mare n jurul documenteului de interogare). Experimental s-a constatat
c probabilitatea de a avea documente relevante avnd iniial un rang mare este redus.
Apoi, se antreneaz un clasificator SVM cu kernel liniar / RBF cu primele n
elemente marcate de ctre utilizator. n final, documentele din baza de date sunt
reordonate n funcie de scorul de ncredere generat de ctre clasificator. Schema
algoritmului este prezentat n Figura 7.19.
Aa cum am amintit anterior, algoritmul cuprinde dou module principale:
alterarea trsturilor prin utilizarea feedback-ului userului i reordonarea trsturilor cu
ajutorul unui algoritm de clasificare. n cele ce urmeaz oferim o descriere mai
amnunit a algoritmului.
Alterarea trsturilor dup feedback-ul utilizatorului
Iniial de efectueaz o cutare n baza de date, utiliznd o cutare cu algoritmul KNN.

Apoi, se antreneaz un model gausian GMM. Din raiuni de optimizare, iniial, clusterii
GMM sunt iniializai cu un algoritm kmeans. Un parametru important n antrenarea
modelului GMM l reprezint numrul de centroizi c. Avnd n vedere c pentru fiecare
cluster adugat, dimensiunea noii reprezentri se va dubla, pentru ca sistemul s ruleze n
timp real, c trebuie s aib o valoare redus.
n seciunea de experimente va fi analizat influena numrului de centroizi
asupra performanei algoritmului. Pentru reducerea dimensiunii vectorului final, aplicm
pentru fiecare trstur n parte algoritmul PCA. Experimental am obinut valori egale ale
performanei pentru aplicarea PCA cu un factor de reducere a dimensionalitii cu 10-
20%. Dup obinerea modelului GMM, descriptorii aparinnd primelor k documente se
transform n noua reprezentare Fisher utiliznd ecuaiile descrise anterior.
Att pentru antrenarea, ct i pentru calculul vectorilor Fisher, am utilizat acelai
program utilizat n [99]. Pentru creterea acuratei algorimului, aplicm normalizarea
vectorilor Fisher. n [99] s-a demonstrat c aplicarea normalizrii asupra vectorilor Fisher
crete performana vectorilor Fisher considerabil. Vom testa diverse variante de
normalizare: i , normalizare de putere ( ), normalizarea
algortmic ( , mpreun cu combinaii ale acestora.
150
Fig. 7.19 Schema logic a algoritmului Relevance Feedback cu Fisher kernel
Reordonarea trsturilor
Primii n vectori Fisher calculai sunt antrenai cu un descriptor SVM. SVM este o soluie
bun pentru RF deoarece este robust la situaii n care sunt utlizate un numr redus de
documente pentru antrenare. ntradevr, SVM a mai fost utilizat n RF [149] [150], ns
nu n combinare cu reprezentarea Fisher kernels. n acest experiment am utilizat dou
tipuri de SVM: liniar i SVM cu nucleu nonlinear RBF. n timp SVM liniar se remarc
prin viteza ridicat n antrenare i clasificare, SVM RBF obine performane mai ridicate
n multe probleme de clasificare.
Utilizarea informaiei temporale pentru RF
Cele mai multe sisteme de cutare multimedia dup coninut sunt compuse din dou
etape principale: extragerea de trsturi i ordonarea documentelor n funcie de trsturi.
Prima component presupune calculul unei trsturi per document, iar aceasta trebuie s
151
cuprind ct mai mult informaie relevant pentru categoria din care face parte. De
exemplu, pentru documentele video, cele mai multe metode calculeaz trsturile pentru
fiecare descriptor n parte, iar apoi agreg aceste rezultate prin utilizarea mediei i
dispersiei acestora, sau a altor parametri statistici. Dar, prin agregarea acestor statistici,
noiunea temporal este pierdut. Pe de alt parte, un video poate fi reprezentat prin mai
multe trsturi per vector, iar apoi se poate calcula o distan dintre cele dou seturi de
descriptori utiliznd, spre exemplu, distana Earth Mover [30]. Totui, aceste metrici
implic un cost computaional foarte ridicat, mai ales pentru baze de date cu dimensiuni
mari.
Prin utilizarea reprezentrii Fisher kernel, se obine o soluie natural la problema
descris anterior. Fisher kernel a fost iniial conceput pentru a mapa vectori de
dimensiuni fixe ntr-o reprezentare de lungime constant. Pentru spargerea documentului
n mai multe cadre, o metod este aceea de a calcula un descriptor pentru fiecare imagine
n parte. Totui, pentru baze mari de date, numrul de cadre este uria (25 frame-uri pe
secund nmulit cu mii de ore de coninut video), iar aceast metod poate creea
probleme de calcul. O alt metod este de a prelua un numr fix de cadre per secund,
ns chiar i asa o mare parte din informaie nu este relevant. n acest caz, un algoritm de
sumarizare video este necesar. n acest caz vom extrage un numr redus de imagini
reprezentative, care vor reprezenta ntr-un mod ct mai precis coninutul video. Pentru
antrenarea modelului GMM vom folosi trsturile pentru primele n documente video.
Odat ce modelul generativ este antrenat, pentru fiecare secven de vectori
, compus din trsturi per document, vom transforma aceti descriptori
ntr-un vector de dimensiune fix. Singura diferena dintre cele dou modele este
reprezentat de numrul de frame-uri cu care modelul generativ este antrenat. n loc s
utilizm o singur trstur agregat pentru calculul Fisher, vom calcula o nou
reprezentare Fisher utiliznd un numr variabil de trsturi per document. Vectorul
rezultat pentru fiecare video n parte va avea aceiai dimensiune constant.
7.3.2 Rezultate experimentale pe baza MediaEval 2012
Descriptori utilizai
Pentru descrierea coninutului multimedia am utilizat o gam larg de descriptori

incluznd: descriptori vizuali, audio i text. Aceti descriptori au obinut rezultate bune n
cadrul competiiei MediaEval Genre Tagging Task 2012 [197].
- Descriptori pe baz de blocuri audio - 11.242 valori per descriptor [120]. Acestea au
rolul de a captura nformaia i proprietile temporale ale semnalului audio. Acest
descriptor conine urmtoarele trsturi: Spectral Pattern, Logarithmic Fluctuation
Pattern, Spectral Contrast Pattern, Correlation Pattern, Local Single Gaussian
152
Model i coeficienii Mel-Frequency Cepstral (MFCC). Secvenele sunt agregate

utiliznd media, variana i medianul pentru toate blocurile audio calculate.
- Descriptori audio standard [175] am folosit o gam variat de descriptori audio
standard: Linear Predictive Coefficients (LPC), Line Spectral Pairs (LSP),
MFCC, Zero-Crossing Rate (ZCR), spectral centroid, flux, rolloff i kurtosis,
fiecare mprite la valoarea acestora pentru o fereastr de o anumit dimensiune
(dimensiunea ferestrei este egal cu 1,28 secunde). Pentru agregarea lor am utilizat
media i dispersia.
- Descriptori globali MPEG-7 (1.009 valori) [47] am utilizat o gam larg de
descriptori vizuali globali pe baz de culoare i textur ca de exemplu: Local Binary
Pattern (LBP), autocorelogram, Color Coherence Vector (CCV), Color Layout
Pattern (CLD), Edge Histogram (EHD), Scalable Color Descriptor (SCD),
histograma de culoare i momente de culoare. Fiecare secvena a fost agregat prin
calculul mediei, dispersiei, skewness, kurtosis, mediane ii a rdcinii medie ptrate
asupra tuturor cadrelor.
- Histograme HOG i Color Naming (CN) globale (81 valori pentru HOG i 11
pentru histograma CN) [71] [48] am calculat descriptori HOG i CN pentru fiecare
cadru dup care i-am agregat utiliznd media tuturor trsturilor extrase din film.
- Descriptori de structur (1.430 valori) [198] descriptorii de structur se bazeaz pe
caracterizarea atributelor geometrice a fiecrui contur indvdual luat n parte, ca de
exemplu: grad al curvaturii, angularitate, circularitate, simetrie i wigglines. Aceti
descriptori au fost raportai ca fiind de succes n problemele de adnotare a
fotografiilor i n cadrul problemelor de clasificare de obiecte.
- Descriptori vizuali Bag of Words am utilizat un dicionar de 4096 cuvinte, iar ca
i descriptor de ale punctelor cheie am folosit SIFT rgb [100].
- Descriptori textuali Term Frequency - Inverse Document Frequency (TF-IDF)
conine 3.466 valori. Descriptorii au fost calculai de ctre organizatorii competiiei
MediaEval 2012 [197]. Textul a fost extras cu ajutorul algorimilor de recunoatere
automat a vorbirii [199].
Pentru testarea coninutului vizual am utilizat 9 combinri de descriptori: vizuali
(1 descriptori MPEG-7, 2 - descriptori HOG CN, 3 descriptori de structur, 4 Bag
of Words, 5 - Combinare cu toi descriptorii vizuali), Audio (6 trsturi audio standard,
7 descriptori pe baz de blocuri audio), 8 - descriptori de text i 9 combinri pentru toi
descriptorii. Toi descriptorii au fost normalizai la n timp de descriptorii de text au
fost normalizai cosinus.
n seciunile urmtoare vom prezenta experimentele noastre. Primul experiment
motiveaz alegerea celei mai bune metrici care ofer cea mai bun performan pentru
fiecare trstur n parte. n a doua seciune studiem influena fiecrui parametru Fisher
kernel asupra acurateei de clasificare a sistemului. Urmtoarea seciune prezint o
comparaie cu metodele prezente n state-of-the-art. Urmeaz o nou seciune n care
153
comparm metoda Fisher kernel cu o nou reprezentare Fisher kernel n care nvtm
modelul GMM utiliznd toi descriptorii pentru toate documentele din baza de date.
Ultima seciune experimental prezint avantajele folosirii Fisher kernel atunci cnd
avem mai muli descriptori calculai pentru fiecare document video.
Evaluare performanei metricilor
Anumite msuri de calcul a distanei dintre doi descriptori sunt mai bine adaptate dect
altele la structura trsturii. n acest capitol am testat performana pe care o nregistreaz
diferite metrici pentru diferii descriptori multimedia. Am plecat de la premiza c o
performan iniial va genera o performan ulterioar mai bun pentru algoritmii de
relevance feedback. Vom testa o gam larg de metrici: euclidian (L2), Manhattan (L1)
(cazuri particulare de distane Minkovski), divergene probabilistice: Canberra [23],
distana cosinus, Chi-Square (utilizat cu succes n algoritmi de machine learning) i
distana Mahalanobis [23]. Performanele sunt prezentate n Tabelul 7.4.
n urma acestui experiment am concluzionat c fiecare trstur are metoda sa
preferat. n urmtoarele experimente vom folosi pentru fiecare trstur metrica cu care
va obine cea mai bun acuratee (valori ngroate n tabel).
Tab. 7.4 Performana sistemului fr relevance feedback, utiliznd diferite metrici
(valori MAP).
Trstur Manhatan Euclidian Mahalanobis Cosinus Bray Chi Canberra

Curtis Square
HOG CN 17,02% 17,18 17,07% 17,00% 17,10% 17,07% 16,67
Trsturi de 10,87% 10,55% 11,14% 2,18% 10,92% 11,58% 14,82%
structur
MPEG 7 12,37% 10,85% 21,14% 08,69% 13,34% 13,34% 25,97%
Audio 7,76% 7,78% 29,26% 15,28% 7,78% 8,04% 1,58%
Standard
Audio pe baz 19,33% 19,58% 20,21% 21,23% 19,71% 19,99% 20,37%
de blocuri
Text 8,32% 7,15% 5,39% 17,64% 20,40% 9,83% 9,68%
Ajustare parametrilor modelului Fisher Kernel
n acest experiment vom testa nfluiena asupra acurateii sistemului a parametrilor

utilizai n cadrul mecanismului de Fisher kernel.
Primul parametru analizat este nfluiena de centroizi GMM. n Figura 7.20 este
prezentat variaia MAP utiliznd un numr redus de centroizi GMM. Se poate observa
c cele mai bune rezultate se obin folosind un singur cluster pentru modelul GMM. n
acest caz dimensiunea vectorului descriptor va fi de dou ori mai mare dect a trsturii
iniiale.
154
Fig. 7.20 Performana algoritmului FKRF la variaia numrului de centroizi GMM

(valori MAP)
Al doilea experiment prezint influena strategiei de normalizare utilizate. n [99]

s-a demonstrat c o strategie de normalizare inteligent selectat poate imbunati drastic
performana sistemului. Rezultatele sunt prezentate n Tabelul 7.5. Se poate observa c,
combinaia normalizare cu normalizare ptratic mbuntete perfomana pentru
descriptorii vizuali i audio, n timp ce normalizarea logaritmic mbuntete
performanele pentru trsturile extrase din text. O observaie interesant este faptul c
normalizarea i au performane mai sczute dect Fisher kernel fr normalizare.
Acestea aduc un plus de performan numai daca sunt combinate cu alte
normalizri. n urmtoarele seciuni vom folosi urmtoarele setri pentru algoritmul de
Fisher Kernels: un centroid GMM, normalizare i ptratic pentru descriptori vizuali i
audio, i normalizare logaritmic pentru trsturile de text. Pentru clasficare vom folosi
dou tipuri de SVM liniar i RBF.
Tab. 7.5 Performana sistemului utiliznd diferite tehnici de normalizare (valori
MAP).
Normalizare Descriptori
Vizuali Audio Text
Fr normalizare 37.25% 38.68% 31.13%
L1 36.82% 37.97% 29.83%
L2 39.22% 41.94% 30.51%
Normalzare logaritmic 38.61% 42.01% 35.07%
Normalizare ptratic 38.51% 41.37% 34.93%
Normalizare ptratic + L1 39.20% 42.98% 30.12%
Normalizare ptratic + L2 39.46% 43.23% 31.71%
155
Comparaia FKRF cu state-of-the-art
n aceast seciune vom compara algoritmul propus cu ali algoritmi propui n literatur
ca de exemplu: Rocchio [139], algoritmul de extimare a relevanei (RFE) [143], Support
Vector Machines (SVM) [150], AdaBoost (BOOST) [193], Random Forests (RF) [193] i
Nearest Neighbor [196]. Figura 7.21 prezint curbele precizie reamintire pentru diferite
categorii de descriptori. Ca i observaie general, toate motodele de relevance feedback
mbuntesc performana de retrieval n comparaie cu performana sistemului n care nu
se utilizeaz feedback. Performane mai bune sunt obinute cu descriptorii de audio, n
timp de textul i descriptorii vizuali au o performan similar. Cea mai bun performan
se obine cu descriptorii standard audio, o cretere a preciziei de la 29,35% (fr RF) la
46.34% i cu toi descriptorii combinai de la 30,29% la 45,80%. Tabelul 7.6 prezint
valorile MAP pentru diferite combinri de trsturi.
Tab. 7.6 Comparaie acuratee cu ali algoritmi de relevance feedback (valori MAP).
Trstur Fr Rocchio NB Boost SVM RF RFE FK FK RBF

RF Liniar
HoG 17,18% 25,57% 24,18% 26,72% 26,49% 26,89% 27,50% 29,46% 29.59%
Trsturi de 14,82% 21,96% 23,73% 23,63% 24,62% 24,69% 23,91% 26,28% 23,96%
structur
MPEG 7 25,97% 30,88% 34,09% 32,55% 32,90% 36,85% 31,93% 40,50% 40,80%
All Visual 26,11% 32,76% 34,15% 35,76% 35,88% 39,08% 32,43% 38,01% 38,23 %
Standard audio 29,26% 32,71% 34,88% 32,88% 38,58% 40,46% 44,32% 44,80% 46,34%
Block Based 21,23% 35,39% 35,22% 39,87% 31,46% 33,41% 31,96% 43,96% 43,69%
Text 20,40% 32,55% 26,91% 26,93% 34,70% 34,70% 25,82% 34,84% 35,14%
Toate trsturile 30,29% 37,91% 39,88% 38,88% 40,93% 45,31% 44,93% 45,43% 45,80%
concatenate
Fig. 7.21 Grafice precizie-reamintire pentru metoda propus i algoritmi state-

of-the-art
156
Algoritmul FKRF obine cele mai bune rezultate pentru marea majoritate a
cazurilor, cu excepia combinaiei de descriptori vizuali, acolo unde algoritmul cu arbori
aleatorii are cea mai bun performan. Cea mai mare diferen de performan se obine
folosind descriptorii MPEG 7 mai bine de 4 procente (de la 40,80% cu FKRF RBF la
36,85% cu random forests) i pentru descriptori pe baz de blocuri audio (de la 43,96%
cu FK RF liniar la 39,87% cu RF Boost). Pe de alt parte, cea mai sczut diferen n
performan este obinut pentru toi descriptorii concatenai (de la 45,80% folosind
FKRF RBF la 45,31% utiliznd random forests).
n cele mai multe din cazuri RFE i RF obin rezultate foarte bune, ns nu att de
bune dect algoritmul propus. Metoda noastr obine rezultate superioare fa de toi
ceilali algoritmi clasici de relevance feedback, ca de exemplu: Rocchio, RFE, SVM,
Random Trees etc.
Reprezentarea Fisher Kernel cu GMM global
O alt metod de antrenare GMM este de a reprezenta i antrena GMM pe toat

baza de date. n acest fel, metoda ar deveni mult mai rapid deoarece nu ar mai trebui s
antrenm modelul GMM pentru fiecare interogare n parte. O ntrebare care poate fi pus
n acest sens este dac obinem rezultate bune deoarece reprezentarea Fisher kernel este
mai puternic dect descriptorii utilizai iniial, sau creterea de performan este cauzat
de alterarea trsturilor fa de primele n rezultate returnate. n acest caz putem testa dac
Fisher kernel este cel mbuntete performana descriptorilor i nu combinaia de
relevance feedback cu FK.
n acest test vom antrena un model GMM iniial pe toate trsturile pentru toate
documentele din baza de date. Deci, vom obine n acest fel un model GMM global care
va fi folosit pentru fiecare interogare n parte. n continuare vom folosi aceast
configuraie pentru a o compara cu metoda RF propus.
Rezultatele sunt prezentate n tabelul urmtor. Se poate observa c performana
scade mai mult de patru procente pentru descriptorii vizuali i 8 procente pentru
descriptorii audio. n acest caz deducem c alterarea datelor pe baza feedback-ului primit
este crucial pentru obinerea de rezultate bune. Acest lucru demonstreaz c Fisher kernel
aduce un aport important pentru problema specific de relevance feedback.
Tab. 7.7 Comparaie acuratee ntre FKRF clasic i FKRF cu GMM global (valori MAP).
Trsturi FKRF cu GMM global FKRF clasic

Vizuale 34,02% 38,23%
Audio 38,25% 46,34%
Text 32,37% 35,14%
157
Utilizarea informaiei temporale n FKRF
n aceast seciune vom prezenta mbuntirea performanei algoritmului FKRF atunci

cnd utilizm mai mult dect un vector descriptor pentru un document video. Deoarece
acestea reprezint experimente preliminare, vom folosi doar dou tipuri de trsturi
vizuale: descriptori HOG i descriptori MPEG 7, care obin rezultatele cele mai bune
pentru trsturile vizuale. Pentru acest experiment vom extrage un numr redus de
imagini reprezentative pentru fiecare document video n parte, iar apoi calculm vectorul
descriptor pentru fiecare imagine extras n parte. Deoarece acum avem mai multe date
de antrenare, modelul GMM va fi mult mai complex. Aceast afirmaie este susinut de
Figura 7.22 n care este prezentat variaia MAP pentru un numr diferit de centroizi
GMM. Se poate observa c cele mai bune rezultate se obin folosind de la 6 la 10
centroizi pe GMM.
n final, Tabelul 7.8 prezint o comparaie intre model FKRF clasic i modelul
FKRF temporal. Se poate observa c n acest caz obinem o cretere de performan mai
mare de trei procente MAP (de la 29,59% la 32,87% pentru trsturile HoG i de la
40,80% la 45,43% pentru descriptorii MPEG 7). Se poate observa n acest caz c
utiliznd doar informaie vizual obinem aceleai rezulate ca n cazul n care combinm
toi descriptorii.
Fig. 7.22 Performana algoritmului FKRF temporal la variaia numrului de centroizi

GMM (valori MAP)
Tab. 7.8 Comparaie acuratee dintre FKRF clasic i FKRF temporal (valori MAP).
Trstur FKRF Liniar FKRF RBF FKRF Temporal FKRF Temporal

(T=1) (T=1) Liniar RBF
Trsturi HOG 29,46% 29,59% 32,12% 32,87%
Descriptori MPEG 7 40,50% 40,80% 44,69% 45,43%
158
7.4 Concluzii
n acest capitol am discutat diverse metode propuse de relevance feedback.
Iniial, am prezentat un algoritm de relevance feedback inspirat din algoritmii de
relevance feedback de schimbare a punctului de interogare i de estimare a importanei
trsturilor. Testarea a fost efectuat pe dou baze de date clasice (o baz de date de
textur i una de imagini naturale), utiliznd o gam variat de metrici i descriptori.
Algoritmul propus obine rezultate superioare fa de algoritmi de relevance feedback
clasici, performana sistemului fiind mbuntit cu peste 8% (valoare MAP).
n urmtoarea seciune au fost expuse dou subiecte principale: influena
metricilor asupra performanei unui sistem de cutare de imagini dup coninut i am
propus un nou algoritm de relevance feedback inspirat de clasificarea ierarhic. Testarea
a fost efectuat pe dou baze de date clasice (Caltech 101 i Microsoft), utiliznd o gam
variat de metrici i descriptori. Algoritmul propus obine rezultate superioare fa de
algoritmi de relevance feedback clasici, performana sistemului fiind mbuntit cu
peste 23% (valoare MAP). De asemenea, am demonstrat c alegerea unei metrici
potrivite poate fi decisiv pentru acurateea sistemului. Distane ca Canberra i
Bhattacharyya s-au dovedit a obine rezultate bune pentru descriptori clasici (ca de
exemplu MPEG 7 sau descriptori de culoare), n timp ce metrici ca Tanimoto obin
rezultate superioare pe descriptori de tip Bag of Words. n urmtoarea seciune am aplicat
acest algoritm i n contextul problemei de indexare a documentelor video. Algoritmul
propus a obinut rezultate mbuntite fa de majoritatea algoritmilor RF state-of-the-
art.
n finalul capitolului, am propus o nou metod de relevance feedback utiliznd
reprezentarea Fisher kernel. Experimentul a fost efectuat n contextul aplicrii tehnicilor
de relevance feedback pe bazele de date multimedia, iar noi am propus o metod care
combin modelele generative cu cele descriminative, pentru problema de relevance
feedback. Testat pe o baz de date mare (MediaEval 2012), i utiliznd o serie de
descriptori care reprezint state-of-the-art (vizuali, audio i text), metoda noastr FKRF
mbuntete performana rezultatelor, surclasnd alte metode existente ca: Rocchio,
Nearest Neighbors RF, Boost RF, SVM RF, Random Forest RF i RFE.
De asemenea, am prezentat o metod de a captura nformaia temporal utiliznd
Fisher Kernel, astfel nct s folosim mai mult de un vector descriptor pentru un
document video. Experimentele efectuate pe trsturi vizuale au artat c performana
este drastic mbuntit de la 40,80% la 45,83% pentru MPEG 7 i de la 29,59% la
32,87% pentru trsturile HOG. De asemeni, am artat ca nu este necesar un numr
ridicat de centroizi GMM pentru a antrena metoda, aceasta obinnd rezultate bune cu
numai 5-10 centroizi. Acest lucru face ca metoda s poat fi implementabil n timp real.
Principala direcie de dezvoltare n viitor o va reprezenta aplicarea metodei pe
baze de date mai mari, pentru a crete diversitatea conceptelor antrenate. Mai mult, dorim
159
extinderea metodei Fisher kernel temporale ctre alte modaliti, ca de exemplu text i
audio, sau a trsturilor mai elaborate ca cele spaio-temporale.
160
Capitolul 8
Particularizarea conceptelor pentru

diferite probleme de aplicaie
n cadrul acestui capitol voi prezenta diferii algoritmi i soluii pentru anumite probleme
de interes de clasificare multimedia. n prima parte voi nfia metode i studii efectuate
pe dou baze de date medicale. O prim baz conine imagini medicale otoscopice, iar
algoritmul propus este un sistem utilizat n detecia otitei la copii. A doua baz de date
conine o diversitate de tipuri de celule canceroase sangvine canine, pentru care vom
efectua un studiu comparativ asupra mai multor descriptori i clasificatori state-of-the-art.
O parte din experimentele prezentate au fost publicate n cadrul a trei conferine cotate
ISI: E-Health and Bioengineering Conference (EHB) [200] care a avut loc la Iai n
noiembrie 2011, Signals, Circuits and Systems (ISSCS) desfurat tot la Iai n iulie
2011 [201] i Communications 2010 Bucureti [202], ct i n cadrul primului raport de
cercetare: Sisteme de Cutare a Imaginilor dup Coninut [203].
n cadrul celei de-a doua pri voi propune un set de metode i sisteme pentru
indexarea coninutului video pentru diferite aplicaii. O prim problem este detecia
categoriei din care face parte un film. Iniial, un sistem de clasificare a genului a fost
propus n cadrul competiiei MediaEval 2012 Video Genre Retrieval Task [204]. n
cadrul acestei competiii am fost membru al echipei ARF (Austrian Romanian France
team) cu care am obinut locul 2 (din 29 de sisteme propuse), locul 1 fiind obinut de
ctre echipa organizatoare. Apoi, sistemul a fost extins i am propus o nou abordare
multimodal a problemei, pe care o voi prezenta n acest capitol. Aceste rezultate
experimentale au fost publicate n cadrul conferinelor Content-Based Multimedia
Indexing - CBMI 2013 desfurat la Veszprm, Ungaria [128] i Symposium on Signals,
Circuits and Systems (ISSCS) 2013, Iai, Romnia [205]. Rezultatele obinute sunt cu
mult superioare celor raportate n cadrul competiiei. A doua aplicaie propus este
detecia seciunilor violente n filmele de la Hollywood. O prim variant a sistemului a
fost propus n cadrul workshop-ului MediaEval 2012, competiia Affect Task. n
cadrul acestei competiii am fost membru al echipei ARF (Austrian Romanian France
Team) cu care am obinut locul 1 (din 35 de sisteme propuse) [206]. O variant extins a
algoritmului a fost propus n cadrul conferinei internaionale ICMR [118], desfurat
la Dallas, 2013 (al treilea autor). n finalul capitolului voi prezenta o metod de
161
clasificare a gesturilor (al doilea autor), aceasta fiind publicat n cadrul conferinei
Symposium on Signals, Circuits and Systems (ISSCS) 2013, Iai, Romnia [207].
8.1 Catalogarea imaginilor ORL

Otoscopia reprezint metoda de examinare a canalului auditiv extern i a timpanului cu
ajutorul otoscopului. Dei metodele de diagnosticare i preluare de imagini medicale au
evoluat, otoscopia rmne piatra de temelie a diagnosticrii afeciunilor urechii. Pentru a
putea diagnostica corect afeciunile urechii, fiecare otolaringolog sau pediatru trebuie s
aib cunotine de otoscopie. Cu ajutorul acestuia medicul poate vedea direct aspectul
timpanului dac acesta este iritat i bombat din cauza presiunii lichidului infectat. Cea
mai ntlnit afeciune a urechii este otita medie. Aceasta reprezint o infecie a urechii
medii, n zona din spatele timpanului. Infecia apare atunci cnd canalul lui Eustachio,
care conecteaz urechea medie cu nasul, se blocheaz cu fluid, aceasta cauznd presiune
i implicit durere. Copii ntre 6 i 36 de luni au o predispoziie mai mare fa de infecii,
ns de cele mai multe ori este dificil o diagnosticare corect.
Pentru o diagnosticare ct mai corect, medicul trebuie s examineze ct mai atent
membrana timpanului, ns acest lucru este problematic n cazul copiilor foarte mici,
deoarece este aproape imposibil cercetarea amnunit a urechii. Din acest motiv se
ncearc o diagnosticare automat prin utilizarea unei simple poze, prin aceast metod
reuind chiar s elimine un operator uman specializat. Metode de diagnosticare automat
sunt utilizate de muli ani n domenii ca dermatologie sau radiologie, ns n domeniul
otoscopic exist un numr restrns de studii. Principalul scop al studiului este designul
complet al unui sistem expert de achiziie a imaginilor otoscopice i diagnosticare
automat a pacienilor (n special copii).
8.1.1 Metoda propus
Pentru a descrie imaginea otoscopic, au fost propui diveri algoritmi de descriere a

culorii, ns pn n prezent rezultatele nu au fost promitoare. O prim analiz a culorii
imaginilor otoscopice a fost propus n [208]. ns pentru a mbunti performanele
unui sistem de detecie a otitei este nevoie s fie luate n considerare informaii extrase
din mai multe canale, cum ar fi textura i punctele de interes. Dar pentru a combina mai
multe surse de informaie trebuie dezvoltate strategii de fuziune adecvate. n general,
avem dou strategii de fuziune: early fusion i late fusion (mai multe detalii n
Capitolul 2.5). Aceste strategii se bazeaz pe ipoteza c o decizie agregat a mai multor
clasificatori i descriptori este superioar unei decizii bazate pe un singur expert. Dac o
strategie de early fusion combin descriptorii nainte de clasificare, algoritmul de late
fusion combin scorurile de relevan a clasificatorilor dup procesul de categorisire.
162
Pentru a combina informaia fiecrei trsturi am hotrt s utilizm o strategie de

late fusion deoarece aceasta prezint mai multe beneficii: (1) este mai puin costisitor din
punct de vedere computaional deoarece descriptorii utilizai pentru fiecare descriptor n
parte sunt mai mici dect atunci cnd utilizm un descriptor concatenat i (2) late fusion
se modeleaz i scaleaz mai uor deoarece nu este nevoie de o reantrenare a sistemului
de fiecare dat cnd o trstur nou este adugat n algoritm.
Schema sistemului popus este prezentat n Figura 8.1. Primul pas este cel de
evaluare i selecie a unui set de trsturi care descriu ct mai eficient informaia de
culoare, textur i puncte de interes. Apoi, se vor selecta clasificatorii potrivii pentru
fiecare descriptor extras. n final, deciziile clasificatorilor se vor combina prin utilizarea
unei strategii de late fusion.
Fig. 8.1 Schema algoritmului propus pentru clasificarea imaginilor otoscopice
8.1.2 Descrierea Experimentului
n cadrul experimentelor s-a utilizat o baz de date de imagini otoscopice preluat de

ctre o echipa de medici pediatrii n timpul investigaiilor medicale: 111 de imagini cu
cazuri normale Figura 8.2 linia 1) i 75 de imagini cu cazuri de otit (Figura 8.2 linia 2).
Imaginile au rezoluia de 768 pe 576 pixeli, iar fiecare poz prezint o component de
fundal negru n form circular.
Fig. 8.2 Exemple de imagini otoscopice utilizate n experimente: prima linie conine
exemple de imagini fr otit, iar linia a doua prezint inflamaii ale urechii medii
163
Selecia descriptorilor
Pentru descrierea coninutului vizual al imaginii au fost utilizai urmtorii descriptori:

Color Layout Descriptor (CLD) [47], momente de culoare [50], descriptorul de textur
Fourier, histograma de culoare [44], matricea de izosegmente [60], matricea de
coocuren [57], Color Structure Descriptor (CSD) [47], autocorelograma [59], Color
Coherence Vectors (CCV) [51] i Localy Binary Patterns (LBP) [62]. Descriptori de tipul
Bag of Words [86] nu au fost raportai n cadrul experimentelor datorit rezultatelor
foarte slabe obinute. Pentru procesul de clasificare am utilizat urmtorii clasificatori:
SVM liniar [148], SVM RBF [148], Naive Bayes [145], Nearest Neighbour (NN) [163],
reele neurale [209], Random Trees (RT) [38], Gradient Boosted Trees (GBT) [38],
Extremelly Random Forest (ERF) i AdaBoost [210]. Aceti descriptori i clasificatori au
fost deja propui n literatur pentru diferite aplicaii, ns nu au mai fost utilizai pentru
clasificarea imaginilor otoscopice. Pentru a calcula performana algoritmilor s-a utilizat
msura de precizia medie.
Fig. 8.3 Acurateea de clasificare pentru urmtorul set de descriptori: 1) Color Layout
Descriptor, 2) Momente de culoare, 3) Descriptorul de textur Fourier, 4) Histograma
de culoare, 5) Matricea de izosegmente, 6) Matricea de coocuren, 7) Color Structure
Descriptor, 8) Autocorelograma, 9) Color Coherence Vectors i 10) Localy Binary
Patterns, utiliznd clasificatorii: SVM Liniar, SVM RBF, Naive Bayes, Nearest
Neighbour, Neural Networks, Random Trees, Gradient Boosted Trees, Extremelly
Random Forest i AdaBoost.
Experimentele (Figura 8.3) arat c performana descriptorilor este destul de

sczut avnd valori medii ale preciziei n jur de 65%. Cele mai bune rezultate s-au
obinut utiliznd clasificatorul Extremelly Random Forest mpreun cu descriptorii:
matricea de coocuren, descriptorul de structur de culoare, autocorelograma, CCV i
LBP (performane de 70,96%, 74,19%, 72,04%, 73,11% respectiv 76,34%). Rezultate
apropiate (precizie medie de peste 70%) s-au obinut i utiliznd reele neurale cu back-
propagation mpreun cu descriptorii CCV i LBP i SVM RBF mpreun cu CCV i
LBP (performane de 74,19%, 73,11% i 73,10%). Se observ deci c cele mai bune
164
perfomane se obin atunci cnd n combinaia clasificator - descriptor apare Extremelly

Random Forest sau LBP.
Cele mai slabe rezultate se obin cu descriptorii: CLD i matricea de izosegmente
mpreun cu clasificatorii AdaBoost, random forests, Nave Bayes i SVM liniar.
Combinarea descriptorilor cu Late Fusion
Totui, un rezultat de 76,34% este mult sub ateptri, aa ca vom ncerca s mbuntim
performana sistemului prin utilizarea de tehnici de fuzionare. Metodele de fuzionare se
bazeaz pe principiul c o decizie agregat din partea mai multor sisteme expert poate
avea o performan superioar fa de cea oferit de un singur sistem. Vom testa patru
tehnici de late fusion i anume fuziunea prin vot egal (CombSum), fuziunea prin vot
ponderat CombMean, CombMNZ i fuziune prin rang (CombRank). Pentru procesul de
vot am selectat primele apte perechi descriptor clasificator din punct de vedere a
performanei obinute.
Rezultatele experimentelor sunt prezentate n Figura 8.4. n primul rnd se poate
observa c performanele obinute cu o strategie late fusion sunt superioare fiecrui
descriptor individual.
Fig. 8.4 Precizia medie pentru metodele de fuzionare:1)performana maxim obinut

fr late fusion 2) fuzionare prin utilizarea rangului 3) fuzionare prin vot egal 4)
fuzionare prin vot ponderat i 5) fuzionare CombMNZ.
Fuzionarea CombMNZ prezint performana cea mai ridicat, i anume 84,2%,

ns rezultate bune se obin i cu strategiile clasice CombMean (83,11%), CombSum
(82,45%) i CombRank (80,95%).
n Tabelul 8.1 sunt prezentate cele mai bune rezultate obinute cu i fr algoritmi
de fuziune. De asemenea, este prezentat i un alt rezultat raportat pe aceeai baz de date
[208]. Se poate observa c metoda propus obine un rezultat mai bun cu 14% mai bun
dect acesta, ceea ce reprezint o mbuntire considerabil.
165
Tab. 8.1 Comparaie cu State-of-the-Art (precizie).
Metode Acuratee
Metoda propus (Late Fusion CombMNZ) 84,2%
Metoda propus (LBP i ERF) - fr late fusion 76,34%
Vertan i alii [208] 68.25%
8.1.3 Concluzii
n cadrul acestui experiment am abordat problema analizei i clasificrii imaginilor

otoscopice. Analiza i diagnosticarea automat de imagini ORL reprezint un domeniu
care nu a mai fost studiat, aceast seciune propunndu-i s instituie un punct de plecare
pentru cercetri ulterioare. Astfel, am studiat att contribuia unui set extins de trsturi
de culoare, textur i puncte de interes, ct i rolul unui mecanism de fuziune n creterea
performanelor de clasificare. Studiul a fost efectuat pe un scenariu real, o baz de date cu
imagini otoscopice, adunat de ctre un colectiv de medici ORL de la Spitalul Universitar
Bucureti. Utilizarea strategiei de late fusion a dus la o mbuntire cu mai mult de 8
procente fa de setul clasic de descriptori propui, n timp ce performana obinut este
cu 14% mai ridicat dect cea raportat n literatur. n viitor, mi propun s extind baza
de date medical i s testez o gam mai larg de descriptori medicali. De asemenea, mi
propun s dezvolt noi algoritmi vizuali care s obin rezultate mbuntite.
8.2 Catalogarea imaginilor microscopice
8.2.1 Descrierea Experimentului
Al doilea experiment i propune s ofere un studiu comparativ asupra performanei

diverilor algoritmi pentru detecia i clasificarea de imagini medicale. Experimentul a
fost realizat pe o baz de imagini cu celule sanguine care conine un numr de 31 de clase
(10 imagini per clas). Toate imaginile conin imagini celulare preluate de un microscop
de nalt rezoluie i colorate cu metoda May-Grnwald-Giemsa. Imaginile reprezint
celule canceroase preluate de la cini. Fiecare clas a fost obinut prin decuparea
aleatorie a unei pri dintr-o imagine principal. Exemple de imagini din baza de date
sunt prezentate n Figura 8.5.
n cadrul experimentelor am comparat performana unei game largi de algoritmi
clasici: (a) de descriere a culorii: descriptorii MPEG 7 Color Structure Descriptor (CSD)
i Color Layer Descriptor [47], momente de culoare [50], histograma de culoare [44],
Color Coherence Vectors (CCV) [51], (b), de textur: autocorelograma [59], Localy
Binary Paterns (LBP) [62] i (c) Bag of Words [86] utiliznd descriptorii Scale Invariant
Feature Transform (SIFT) [75] i Speeded Up Robust Feature (SURF) [78].
166
Fig. 8.5 Exemple de imagini medicale utilizate n experiment:(1) prima linie conine
exemple de imagini celulare din clase diferite i (2) a doua linie prezint un exemplu de
imagini aparinnd aceleiai clase
Pentru testarea performanei descriptorilor, vom testa sistemul din dou

perspective diferite. O prim perspectiv va fi aceea de a interoga sistemul utiliznd
principiul de query by example. Al doilea experiment va fi unul de clasificare. Vom
compara performana descriptorilor utiliznd diferii algoritmi de clasificare.
8.2.2 Experiment de cutare
Pentru a compara performana descriptorilor am utilizat graficele precizie-reamintire.

Acestea sunt prezentate n Figura 8.6.
Algoritmii Bag of Words (SURF i SIFT), alturi de autocorelogram au cele mai
bune performane: 77,62%, 77,02% i 78,01%. Rezultate mai mici, dar apropiate, au fost
obinute i cu descriptorii CCV i Color Structure Descriptor (74,53% i 73,63%). Cele
mai slabe rezultate au fost obinute cu momentele de culoare, EHD i descriptorul MPEG
7 Color Layout (sub 50%).
Descriptorii Bag Of Words au cea mai mare complexitate de calcul dintre toi
descriptorii utilizai. De asemenea, ei au i cea mai mare lungime (am utilizat un dicionar
de 300 de puncte cheie). Autocorelograma are o vitez de calcul mult mai sczut dect
SIFT i SURF, ns lungimea este similar cu cea folosit n Bag of Words. CCV i Color
Structure Descriptor au complexiti de calcul similare cu ale autocorelogramei, lungimea
acestora fiind mult redus fa de descriptorii anteriori (96, respectiv 48 de valori).
Principalul dezavantaj al acestora este ns reprezentat de performana cu 5 procente mai
sczut.
167
Fig 8.6 Performanele obinute n experimentele de retrieval utiliznd descriptorii:

histograma de contururi, CLD, momente de culoare, histograma de culoare, CCV,
autocorelograma, LBP, CSD i Bag of Words (SIFT i SURF)
8.2.3 Experiment de clasificare
n al doilea experiment, ne propunem s testm descriptorii din perspectiva clasificrii.

Au fost testai urmtorii algoritmi de clasificare: Naive Bayes [145], Nearest Neighbor
[163], SVM [148] (liniar i cu nucleu neliniar RBF), Random Trees [38], Gradient
Boosted Trees [38], Extremelly Random Forest [38]. Parametrii algoritmilor au fost
iniial setai n funcie de experimentele preliminare. Bazele de date au fost mprite n
dou pri egale: una de antrenament i una de testare. Pentru a msura performana s-a
utilizat parametrul de acuratee a clasificrii.
n Figura 8.7 prezentm procentajul global de clasificare corect pe o selecie de
apte algoritmi de clasificare. Rezultatele au valori promitoare. Cele mai bune rezultate
au fost obinute, la fel ca i n experimentul anterior, de ctre descriptorul BoW i de
ctre autocorelogram, utiliznd clasificatorii Naive Bayes, Nearest Neighbor i SVM cu
RBF kernel. Toate aceste combinaii au performane de clasificare apropiate, mai mari de
98,5%. Cel mai bun procent de clasificare este obinut de SURF cu Nearest Neighbor
(99,45%). Utiliznd aceti descriptori, se obin rezultate bune (de peste 90%) cu toi
clasificatorii testai (n afar de Gradient Boosted Trees care are n toate cazurile o
performan sczut). Rezultate apropiate de 95% se obin utiliznd CSD i CCV n
combinaie cu Naive Bayes, Nearest Neighbor i SVM - RBF.
168
Fig. 8.7 Performana algorimilor de clasificare pentru fiecare set de descriptori
7.2.4 Concluzii
n cadrul acestui experiment am abordat problema analizei i clasificrii de imagini

medicale preluate de microscop. Astfel, am studiat att contribuia unui set extins de
trsturi de culoare, textur i puncte de interes, ct i performana de clasificare a mai
multor clasificatori. Studiul a fost efectuat pe un scenariu real, o baz de date cu imagini
medicale extrase de ctre Facultatea de Medicin Veterinar Bucureti. Autocorelograma,
alturi de descriptori ce extrag puncte de interes, obine cea mai bun performan att n
experimentele de clasificare ct i n cele de retrieval. Din punct de vedere al clasificrii,
cele mai bune rezultate au fost obinute de ctre random forests i nearest neighbor. Prin
combinarea descriptorilor SURF cu clasificatorul Nearest Neighbor am obinut cel mai
bun procent de clasificare de 99,45%. n viitor, mi propun s extind baza de date
medical i s testez o gam mai larg de descriptori medicali.
8.3 Catalogarea dup gen a documentelor video

Cutarea prin coninutul documentelor multimedia reprezint o problem foarte actual i
dificil de rezolvat. Acest aspect de datoreaz faptului c algoritmii actuali de manipulare
i descriere a coninutului multimedia ating performane limitate, n principal datorit
volumului impresionant de date ct i a faptului c trebuie descrise informaiile
multimedia pe diferite canale: text, audio, vizuale, micare etc. Pentru a putea adnota
coninutul media, diferite platforme (ex: YouTube, Dailymotion, blip.tv) utilizeaz
metadate completate manual. Principala problem este c acestea sunt dificil de
completat i de foarte multe ori sunt incorect marcate i ineficiente. Din acest motiv este
necesar adnotarea automat a fiierelor video. Recent, au fost propui diferii algoritmi
169
pentru adnotarea automat a coninutului multimedia i adnotarea documentelor

multimedia cu anumite genuri.
Algoritmii de nvare au fost utilizai n mod intensiv pentru a rezolva diferite
scenarii pentru categorisirea coninutului multimedia, deoarece acetia sunt capabili s
manipuleze volume impresionante de date, ca de exemplu: trsturi cu lungimi variate i
sute de mii de documente utilizate n procesul de nvare. Cu toate acestea, cele mai
multe metode prezentate n literatur sunt limitate la un numr redus de categorii, cum ar
fi determinarea unor genuri clasice TV (ex: comedie, dram, desene animate, sport). n
prezent, cele mai bune performane sunt determinate de metodele multimodale care
exploateaz beneficiile fuzionrii mai multor modaliti: text, vizual i audio.
n cele mai multe probleme de categorisire, utilizarea de informaii textuale
(metadate, taguri i comentarii adugate de utilizatori, subtitrri) ofer cele mai bune
performane. ns principalul dezavantaj al acestora este c nu poate fi generat automat,
ceea ce limiteaz mult aria lor de aplicabilitate. Informaia textual poate fi extras n
mod automat, att din textul ce apare n scene (bannere, titluri, adrese), ct i prin
extragerea subtitrrilor utiliznd metode automate de extragere a textului (ASR). ns
documentele video pot conine diferite limbi sau zgomot de fundal, ceea ce face ca
tehnicile de recunoatere automat s fie foarte ineficiente. Un alt canal de informaie
intens studiat este cel audio. Informaia audio poate fi prelucrat att n domeniul
frecven ct i n domeniul timp. Metode comune utilizate pentru descrierea coninutului
multimedia sunt rdcina ptrat medie a energiei semnalului, Zero-Crosing Rate i
coeficienii Mel-Frequency Cepstral [175]. Pe de alt parte, informaia vizual
exploateaz att aspectele dinamice ct i pe cele statice, utiliznd informaia de culoare,
structur temporar, obiecte, puncte de interes i micare. Unele dintre cele mai eficiente
metode de descriere a coninutului vizual sunt reprezentate de BoVW [86], Space-Time-
Interest-Points (STIP) [105], histograme de gradieni orientai (HOG) [71], 3D-SIFT
[75], ns multe dintre acestea sunt costisitoare din punct de vedere computaional
deoarece presupun crearea de dicionare de cuvinte vizuale.
Detecia automat a genului a fost studiat intensiv n literatur n ultimii zece ani
[120]. Cea mai mult munc s-a concentrat pe categorisirea de genuri pentru seriale TV
[211] sau pentru documente video online [212].
Metodele existente exploateaz att o singur surs de informaie ct i mai multe
canale, prin integrarea mai multor modaliti. De exemplu, metoda propus n [213]
utilizeaz doar informaia textual. Astfel, este propus o metod SVM care ia decizii n
funcie de diferite surse de informaie de pe internet, ca de exemplu descrierea existent
pe Wikipedia. Apoi sunt combinate aceste informaii cu informaiile sociale, precum
metadatele, comentariile, comportamentul utilizatorilor i scorul de relevan al filmului.
Pe de alt parte, un sistem de clasificare a genului care utilizeaz doar informaia vizual
este prezentat n [214]. n cadrul acestei metode, pentru descrierea coninutului vizual,
sunt utilizai o serie de algoritmi BoVW precum Opponent SIFT [75], care apoi sunt
170
clasificai cu ajutorul unui model probabilistic. n [211] este prezentat un prim model
multimodal, care utilizeaz att text ct i informaia vizual. O detecie a genului este
iniial efectuat prin clasificarea unor descriptori textuali (metadate, titlu, nume utilizator,
comentarii), ca apoi informaia vizual s fie utilizat pentru detecia unor subgenuri.
ns, un sistem multimodal trebuie s ncapsuleze i informaia audio. n [215] este
combinat informaia vizual (descriptori MPEG 7 i descriptori de micare HOF) cu
descriptori audio. Apoi, filmele sunt clasificate cu ajutorul unui model Gaussian Mixture
Model (GMM).
ns cele mai multe metode prezentate anterior sunt limitate la un numr redus de
genuri. Recent, competiia Genre Tagging Task din cadrul MediaEval 2012 [197] a
instituit o nou perspectiv pentru sistemele de clasificare de gen, propunnd att o baz
de date public de dimensiuni mari (15.000 de documente video), ct i posibilitatea de
de a utiliza metode multimodale. Aceasta a propus un scenariu din lumea real, n care
filmele provin de pe o platform online11, iar categoriile existente cuprind o gam larg:
de la documentare la talkshow-uri i videoblogging.
8.3.1 Metod propus
n acest capitol mi propun s efectuez un studiu amnunit a metodelor i tehnicilor

existente pentru categorisirea genului. Voi investiga diferite seturi de descriptori pentru
descrierea coninutului vizual, audio i text ct i diferite tehnici de fuzionare a acestor
canale. De asemenea, voi ncerca s rspund la anumite ntrebri: (1) pot descriptorii
vizuali i audio s ating performane similare cu ale metadatelor? (2) ct de eficiente
sunt metodele de fuzionare i care strategie este mai eficient? i (3) care este contribuia
fiecrui canal de informaie la performana global a sistemului. Toate experimentele vor
fi efectuate pe baza de date MediaEval 2012, n contextul competiiei de Genre Tagging
Task.
Dei metodele propuse au fost mai mult sau mai puin explorate anterior n
literatur, principalele contribuii ale acestui capitol sunt: (1) am efectuat o analiz n
profunzime a unui set multimodal de descriptori, n contextul unui scenariu real de
detecie de gen, (2) am demonstrat potenialul pe care l are o strategie adecvat de late-
fusion pentru a atinge o performan foarte bun, (3) am demonstrat c, dei descriptorii
de metadate sunt superiori, descriptorii multimodali n combinaie cu late fusion pot
atinge performane similare, (4) am instituit un nou punct de plecare pentru baza de date
MediaEval, obinnd rezultate superioare celor raportate n cadrul competiiei i (5)
evaluarea s-a efectuat pe o baz de date standard fcnd ca rezultatele s poat fi
relevante i reproductibile.
Schema sistemului popus este prezentat n Figura 8.8. Primul pas este cel de
evaluare i selecie a unui set de trsturi care descriu ct mai eficient informaia vizual,
11
blip.tv
171
audio i textual. Apoi, se vor selecta clasificatorii potrivii pentru fiecare descriptor
extras. n final, deciziile clasificatorilor se vor combina prin utilizarea unei strategii
adecvate de fuziune.
Fig. 8.8 Schema sistemului propus pentru clasificarea genului documentelor video web
8.3.2 Descriptori multimodali
Este un lucru tiut c diferite canale de informaie multimedia (text, audio, informaii
vizuale) conin informaii cu o putere complementar discriminativ. Pentru acest
experiment au fost utilizate toate sursele de informaie disponibile: de la coninutul vizual
i audio pn la descriptorii cu un nivel ridicat semantic cum ar fi informaia extras din
text (prin utilizarea de algoritmi de recunoatere a vorbirii) sau metadatele completate de
ctre utilizatori (titlul, descrierea coninutului, comentarii etc).
Informaia audio. Anumite genuri de filme conin o semntur audio specific. Spre
exemplu, documentarele utilizeaz un amestec de sunete naturale i monologuri,
videoclip-urile conin diferite genuri de muzic (ex: rock, jazz etc), sporturile au n
componen mult zgomot i monologuri, n timp ce talk-show-urile cuprind dialoguri
ntre diverse persoane. Pentru a descrie aceste aspecte, am dezvoltat un set de descriptori
audio standard care au furnizat rezultate bune n problemele de categorisire a genurilor
muzicale. Descriptorii audio utilizai au lungimea de 196 de valori i conin un set
general de descriptori audio [175]: Linear Predictive Coefficients, Line Spectral Pairs,
172
MFCC, Zero-Crossing Rate, spectral centroid, flux, rolloff i kurtosis, toi aceti
descriptori fiind ponderai cu variana pe fiecare trstur pe o anumit fereastr (de
obicei o lungime comun utilizat este de 1,28 s).
Informaia vizual. Din punct de vedere a informaiei vizuale, distribuia de culoare i a
diverselor obiecte pun n eviden diferite genuri. De exemplu, videoclip-urile i
reclamele conin culori mai nchise i o palet larg de efecte vizuale, sporturile au n
componen diferite nuane specifice, buletinele de tiri conin o frecven ridicat de
persoane, anumite genuri conin obiecte specifice sau informaie de context specific.
Pentru a captura aceste particulariti, am dezvoltat o serie de descriptori clasici de
descriere a imaginilor:
- descriptori globali nrudii MPEG-7 (1.007 valori): descriu informaia global de
culoare i textur. Am selectat urmtorul set de descriptori care: Local Binary Pattern
(LBP), autocorelograma, Color Coherence Vector (CCV), ColorLayout Pattern (CLP),
Edge Histogram (EHD), Scalable Color Descriptor (SCD), histograma color clasic HSV
i momente de culoare. Pentru fiecare secven am agregat descriptorii prin calculul
mediei, varianei, skewness, kurtosis, medianului i a rdcinii ptrate medii pe toate
frame-urile.
- descriptori structurali (1.430 valori): descriu informaia de contur (atributele
geometrice ale acestora) i relaiile dintre acestea. n acest scop, am utilizat metoda
propus n [198].
- histograme globale de gradieni orientai (HoG 81 valori) [71]: reprezint o medie
global a descriptorilor HoG calculai pe fiecare frame n parte. Acetia descriu forma
obiectelor dintr-o imagine prin utilizarea distribuiei de orientri de muchii.
- Bag Of Visual-Words (HoG 20.480 valori) [86] am calculat un model Bag of Visual-
Words pe o selecie de keyframe-uri. Pentru acest task am extras un dicionar de 4096
cuvinte vizuale. Cuvintele vizuale sunt extrase prin folosirea unei strategii de eantionare
dense i prin folosirea descriptorilor rgbSIFT. Pentru a calcula acest descriptor am utilizat
metoda propus n [216].
Informaia textual. Textul reprezint cea mai reprezentativ informaie pentru
clasificarea dup gen. Doar un set restrns de anumite cuvinte cheie specific (ex: religie,
economie, muzic) genereaz informaii foarte importante din punct de vedere al genului
documentului. De exemplu, metadata de obicei conine informaii ca titlul sau descrierea
documentului, care sunt foarte corelate cu conceptele de gen. Pentru descrierea genului,
am adaptat o abordare clasic, i anume metoda Term Frequency-InverseDocument
Frequency (TF-IDF). Textul extras din documentul video poate proveni din dou canale
diferite: convorbirile care pot fi extrase cu ajutorul algoritmilor de recunoatere automat
a vorbirii (Automatic Speech Recognition - ASR) i metadatele completate de ctre
utilizatori. Pentru fiecare dintre cele dou canale am generat un descriptor TD-IDF: TD-
IDF pentru ASR (3466 valori) i TD-IDF pentru metadate (504 valori).
173
Pentru clasificare am folosit patru dintre cei mai utilizai algoritmi Support Vector
Machines (SVM cu diferite nuclee: liniar, Chi-square - CHI, Radial Basis Functions -
RBF), k-Nearest Neighbor (k-NN), Random Trees (RT) i Extremely Random Forest
(ERF).
8.3.3 Rezultate Experimentale
Evaluarea individual a trsturilor
Primul experiment prezint performana fiecrei trsturi propuse. Tabelul 8.2 prezint
performanele MAP obinute cu fiecare pereche trstur clasificator (valorile
performanelor maxime sunt ngroate).
Cea mai bun performan pentru descriptorii vizuali este obinut cu setul de
descriptori globali de culoare i textur (nrudii MPEG 7) n combinaie cu clasificatorul
ERF, i anume 26,17%, urmat ndeaproape de histograme HoG cu SVM RBF
(performan de 25,63%). Surprinztor, reprezentarea Bag-of-Visual-Words realizeaz o
performan foarte sczut, obinnd o performan de sub 20% MAP. Descriptorii audio
conin informaie discriminatorie mai bun dect componenta vizual, cea mai bun
performan de 42,33% fiind obinut cu clasificator ERF. n ceea ce privete descriptorii
de text, prin utilizarea metadatelor si a descriptorului Random Forest, am obinut o
performan de 58,66% MAP. Prin folosirea informaiei extrase din TDF-IDF ASR,
performana realizat este cu mult mai sczut dect a descriptorilor audio, obinnd
numai 35,05% (n combinaie cu SVM RBF). Descriptorii text extrai cu ASR realizeaz
o performan mai sczut deoarece acurateea de extragere a textului este realizat n
condiii de zgomot.
Din punct de vedere al performanei clasificatorilor, SVM Liniar i 5-NN tind s
obin performana cea mai sczut. Acest lucru dovedete c descriptorii video nu sunt
liniar separabili iar pentru rezolvarea problemei de clasificare a genului sunt necesari
algoritmi mai compleci de clasificare. n urmtorul capitol vom investiga avantajele
combinrii diferitelor modaliti i impactul schemelor de fuziune.
Tab. 8.2 Performana trsturilor propuse pentru clasificarea genului (valori MAP).
Descriptors SVM liniar SVM RBF SVM CHI 5-NN RF ERF

HoG 9,08 % 25,63% 22,44% 17,92% 16,62% 23,44%
Bag-of-Visual-Words 14,63 % 17,61% 19,96% 8,55% 14,89% 16,32%
MPEG-7 6,12 % 4,26% 17,49% 9,61% 20,90% 26,17%
Structural descriptors 7,55 % 17,17% 22,76% 8,65% 13,85% 14,85%
Standard audio descriptors 20,68 % 24,52% 35,56% 18,31% 34,41% 42,33%
TF-IDF of ASR 32,96 % 35,05% 28,85% 12,96% 30,56% 27,93%
TF-IDF of metadata 56,33% 58,14% 47,95% 57,19% 58,66% 57,52%
174
Performana realizat prin fuziunea trsturilor
Tehnicile de fuziune exploateaz informaia complementar din diferite surse de

informaii. n acest experiment, noi evalum performana obinut cu diferite modaliti
de fuzionare a informaiei: early fusion (simpla concatenare a descriptorilor) i late fusion
(CombSum, CombMean, CombRank i CombMNZ). Pentru late fusion, ponderile
corespunztoare fiecrei strategii de fuzionare au fost iniial optimizate pe baza de
antrenare. Acest lucru a fost realizat pentru a se evita overfitting-ul. Performanele
strategiilor de fuzionare sunt prezentate n Tabelul 8.3 (perfomanele maxime au valori
ngroate).
n toate cazurile late fusion obine performane mai bune dect early fusion.
Numai pentru descriptorii vizuali, diferena de performan depete 8% (cea mai ridic
performan este obinut cu CombSum 38,21% MAP). n schimb, creterea de
performan a descriptorilor audio este mai redus (CombMNZ cu 44,5% MAP). Acest
lucru se datoreaz faptului c fuzionm un singur descriptor cu mai muli clasificatori iar
n acest caz nu avem surse distincte de informaie complementar. Cu toate acestea,
descriptorii audio menin o performan superioar fa de informaia vizual.
O mbuntire substanial este obinut cu descriptorii text. Cea mai bun
performan a fost obinut cu CombMean, i anume 62,81%, ceea ce reprezint o
diferen de performan de peste 7% fa de early fusion. n ceea ce privete metodele de
late fusion, ComRank tinde s obin cele mai slabe rezultate n toate combinaiile, n
timp ce celelalte strategii obin valori similare. Prin urmare, late fusion se dovedete a fi o
alegere mai bun dect early fusion. n primul rnd, late fusion realizeaz o performan
superioar. n al doilea rnd, late fusion este mai rapid dect early fusion deoarece
descriptorii utilizai pentru fiecare clasificator sunt mai scuri dect concatenarea tuturor
descriptorilor. Mai mult, sistemul integreaz mult mai uor noi clasificatori deoarece nu
este necesar reantrenarea tuturor clasificatorilor.
Tab. 8.3 Performana obinut cu diferite strategii de fuziune (valori MAP).
Descriptori CombSum CombMean CombMNZ CombRank Early Fusion

Vizuali 35,82% 36,76% 38,21% 30,90% 30,11%
Audio 43,86% 44,19% 44,50% 41,81% 42,33%
Text 62,62% 62,81% 62,69% 50,60% 55,68%
Toi descriptorii 64,24% 65,61% 65,82% 53,84% 60,12%
Comparaie cu MediaEval 2012
n aceast parte, vom compara performana algoritmilor de late fusion cu alte rezultate
obinute pe baza MediaEval 2012. n acest sens, vom lua ca referin cele mai bune
rezultate raportate la concursul MediaEval 2012. Rezultatele sunt prezentate n Tabelul
8.4 n ordinea descresctoare a performanei (trebuie notat c rezultatele obinute la
175
MediaEval 2012 au fost realizate sub anumite constrngeri de timp i fr a cunoate

categoria documentelor din baza de test).
n cadrul competiiei, descriptorii textuali (metadate i ASR) au obinut cea mai
ridicat performan i anume 52,25% (echipa TUB [217]). Acetia au propus un sistem
unimodal care incorporeaz trsturi textuale, ce cuprind att metadate ct i ASR.
ns, rezultatele obinute de ctre descriptorii textuali propui sunt mult mai
ridicate. Astfel, am obinut 58,66% cu descriptorii de metadate. n ciuda ratei mari de
clasificare, late fusion mbuntete semnificativ performana descriptorilor, spre
exemplu CombMean aplicat pe ASR i metadate obine performana de 62,81%, care
reprezint o diferen de performan de peste 10% procente fa de echipa TUB [217] i
peste 25% dect RAF [119].
n ceea ce privete descriptorii vizuali, cel mai bun rezultat este obinut de echipa
KIT [218]. Acetia au propus un set de descriptori clasici de culoare i textur
(histograma de culoare HSV, momente de culoare L*a*b*, autocorelograma, matricea de
coocuren, descriptori de textur wavelet i histograme de contur), acestea fiind
combinate cu Bag-of-Visual-Words (rgbSIFT). n ciuda performanelor ridicate realizate
pentru probleme de clasificare de imagini, descriptorul Bag-of-Visual-Words a obinut
rate de detectiie sczute (23,29% MAP cu rgbSIFT i 23,01% MAP cu SURF-PCA),
asemntoare cu cele obinute de metoda BoW utilizat n seciunea anterioar. Prin
utilizarea descriptorilor vizuali propui i combinarea acestora cu late fusion, am obinut
o performan cu trei procente mai ridicat (MAP 38,21%) dect cel mai bun sistem cu
trsturi vizuale raportat la MediaEval 2012.
Prin utilizarea doar a informaiei audio, rezultatele sunt promitoare. Astfel, am
obinut un rezultat remarcabil de 44,5% MAP, n condiiile n care cel mai bun rezultat
obinut n cadrul competiiei a fost de numai 18,92% (echipa RAF), ceea ce reprezint o
mbuntire cu mai bine de 25% MAP.
Combinnd toi descriptorii am obinut cea mai mare rat de clasificare de
65,82%, ceea ce reprezint o mbunire a performanei cu peste 13 procente fa de cea
mai bun performan de la MediaEval 2012.
Aa cum am artat, metadatele obin cea mai ridicat performan. Totui, trebuie
reinut c aceste informaii sunt generate manual de ctre utilizator i nu pot fi generate n
mod automat, ceea ce limiteaz utilizarea lor pentru sisteme multimedia. Prin utilizarea
unor tututor descriptorilor, mai puin metadate, obinem o performan de 51,9%, ceea ce
reprezint o performan foarte ridicat, similar cu cea mai ridicat performan din
concurs. Deci, prin utilizarea descriptorilor ce pot fi extrai n mod automat putem obine
rezultate apropiate cu cele ale metadatelor, iar prin combinaia acestora performana este
drastic mbuntit (n cazul nostru cu mai mult de 8 procente).
176
Tab. 8.4 Comparaie cu algoritmii raportai n State-of-The-Art (valori MAP).
Echip Descriptori Descriere metod MAP

Propus Vizuali & Late Fusion CombMNZ cu toi descriptorii 65,82%
Audio & Text
Propus Text Late Fusion CombMean cu TF-IDF aplicat pentru ASR i 62,81%
metadate
TUB [217] Text Naive Bayes cu Bag of Words aplicat pe text (ASR & metadata) 52,25%
Propus Vizuali & Late Fusion CombMNZ pe toi descriptorii mai puin metadata 51,9%
Audio & Text
Propus Audio Late Fusion CombMean cu descriptorii audio 44,50%
Propus Text Late Fusion CombMean cu descriptorii MPEG-7, de structur, 38,21%
HoG i B-o-VW cu rgbSIFT
ARF [119] Text SVM liniar cu early fusion i TF-IDF aplicate pe ASR i metadate 37,93%
TUD [219] Vizual & Fusion Dynamic Bayesian networks cu BoW (cuvinte vizuale, 36,75%
Text ASR & metadata)
KIT [218] Vizual SVM cu descriptori vizuali (culoare, textur, BoVW cu rgbSIFT) 35,81%
TUD-MM Text SVM with Latent Dirichlet Allocation on text (ASR & metadata) 25,00%
[220]
UNICAMP Vizual Late fusion (KNN, Naive Bayes, SVM, Random Forests) cu BOW 21,12%
[221] (ASR)
ARF [119] Vizual SVM liniat cu trsturi audio 18,92%
8.3.4 Concluzii
n cadrul acestei seciuni am prezentat diferite metode pentru rezolvarea problemei de

clasificare automat a coninutului video. n acest sens, am studiat contribuia diferitelor
trsturi i influena unui algoritmilor de fuziune. Studiul a fost efectuat pe un scenariu
real, i anume concursul MediaEval 2012, proba de detecie de gen. Performana maxim
atins este de 65,8%, ceea ce reprezint o mbuntire cu mai mult de 13 procente fa de
prima poziie. De asemenea, am demonstrat c n ciuda superioritii metadatelor,
descriptorii automai pot atinge performane asemntoare.
8.4 Catalogarea coninutului de violen n filme

Accesarea coninutului multimedia a devenit o ocupaie de rutin. Dezvoltarea
internetului, a reelelor sociale i a platformelor multimedia online (BlipTv, Youtube), a
dus la o explozie a coninutului multimedia pe o mulime de terminale (telefoane, tablete,
notebook-uri). n prezent, distribuia de documente multimedia reprezint categoria cea
mai important pe internet, ocupnd peste 25% din totalul de trafic. n acest context, una
dintre cele mai importante direcii de cercetare este filtrarea automat a coninutului
video. Obiectivul este acela de a selecta i distribui numai coninut adecvat categoriei de
utilizatori care acceseaz materialul multimedia. Un caz particular de filtrare a
informaiei este detecia coninutului violent. Definirea termenului de violen nu
reprezint o problem facil, deoarece noiunea reprezint un concept subiectiv [222].
177
Definiia violenei poate nsemna aciuni sau cuvinte cu intenia de a rni persoane sau
violen fizic sau accidental care are ca rezultat rnirea sau suferina provocat unei
persoane, ns din punct de vedere al analizei violenei n filme aceasta poate fi definit
i prin prezena unor indicatori audio-vizuali, ca de exemplu aciunea sau muzica cu ritm
alert.
Problema de detecie a violenei este una complex deoarece apar probleme att
cu definirea conceptului ct i cu realizarea de descriptori cu o putere discriminatorie
ridicat. Metoda propus i propune s abordeze detecia violenei n contextul filmelor
de la Hollywood. Aceasta se bazeaz pe o metod de fuziune a conceptelor de nivel
mediu prin utilizarea unor reele neurale multi-layer perceptron.
Cele mai multe metode propuse la MediaEval Violence Detection Task s-au
concentrat pe dezvoltarea de trsturi care descriu ct mai bine conceptul de violen.
Deoarece majoritatea trsturilor prezentate descriu concepte de nivel sczut, intervine
paradigma semantic [10], iar sistemele propuse au de cele mai multe ori o performan
sczut. n schimb, metoda propus n [206] [118], utilizeaz un nou tip de arhitectur,
care iniial estimeaz conceptele de nivel mediu i apoi le utilizeaz n detecia
conceptelor de nivel nalt (n cazul nostru violena). Prin predicia iniial a conceptelor
de nivel mediu i abia apoi a termenului de violen ar trebui obinute performane
superioare cazului n care ncercm s detectm direct conceptele de nivel ridicat. n
cadrul acestui algoritm, contribuia mea a costat n selecia i calculul trsturilor vizuale
utilizate, restul contribuiilor aparinnd celorlaltor autori.
8.4.1 Metoda propus
Algoritmul propus n [118] [206], prezint mai muli pai. Iniial, trsturile sunt extrase
la nivel de frame, iar apoi acestea sunt utilizate ca date de intrare pentru un prim nivel de
clasificatori. Apoi, fiecare clasificator din acest prim nivel va estima conceptele de nivel
mediu. Fiecare scor, al unui clasificator din primul nivel va fi folosit pentru estimarea
gradului de violen. n cele ce urmeaz vom detalia fiecare nivel n parte. Pentru
antrenarea sistemului vom folosi etichetarea conceptelor la dou nivele: conceptele care
sunt de obicei prezente n scenele violente: ca de exemplu exploziile, prezena armelor de
foc i a aciunii i etichetele care arat c un segment este sau nu violent. O diagram a
metodei propuse este prezentat n Figura 8.9.
Metoda propus se evideniaz fa de metodele prezentate n State-of-the-Art
prin urmtoarele aspecte:
- am testat sistemul propus pe un scenariu complex, n care violena implic att
njurturi ct i durere
- datorit fuziunii prediciilor conceptelor de nivel mediu, metoda este independent de
trsturi, n sensul c nu sunt necesari descriptori adaptai.
178
- violena este detectat la nivel de frame ceea ce faciliteaz detecia violenei n

seciuni de lungime variat
- evaluarea este efectuat pe o baz de date standard, ceea ce face ca rezultatele s fie
att relevante ct i reproductibile.
Fig. 8.9 Schema sistemului propus pentru detecia violenei n documentele video
8.4.2 Detecia de concepte
Pentru a antrena sistemul am utilizat dou tipuri de etichete: cele care sunt asociate
conceptelor ce presupun prezena scenelor violente (ca de exemplu prezena focului de
arm, a exploziilor i a incendiilor) i cele care conin prezena sau absena gradului de
violen (violent/nonviolent). Pentru antrenare am utilizat datele puse la dispoziie de
organizatorii MediaEval Affective Task [222]. Detecia conceptelor de nivel mediu se
obine prin utilizarea unui set de clasificatori care sunt antrenai pentru a clasifica primul
set de concepte asociate violenei. Pentru antrenarea acestor descriptori am efectuat mai
multe seturi de cros-validri pe baza de date de antrenare, i am utilizat parametri care
ofer performana maxim.
Pentru a selecta clasificatorul care realizeaz cele mai bune performae, am testat
o serie de clasificatori cunoscui: SVM, arbori de decizie i reele neurale. Cele mai multe
dintre ele au euat n a asigura rezultate relevante. Arhitectura reelelor neurale s-a
potrivit cel mai bine acestor cerine, n particular prin utilizarea unei arhitecturi multi-
layer cu perceptroni. Prin urmare, pentru a clasifica conceptele de violen am utilizat o
arhitectur cu un singur strat ascuns i cu 512 perceptroni (funcii sigmoid). Reeaua a
fost antrenat cu algoritmul gradient descent i backpropagation [209], utiliznd
179
ideea prezentat n [223] pentru a mbunti performana. Pentru fiecare set de antrenare,
o fraciune din perceptronii din stratul de intrare i cel ascuns sunt lsai la o parte.
Aceast arhitectur poart numele de dropped-out. Setul de uniti lsate la o parte sunt
alese n mod aleatoriu pentru fiecare frame de antrenare, astfel c o gam mare de variaii
vor fi antrenate doar ntr-o singur epoc. Acest lucru ajut procesul de generalizare prin
urmtoarele aspecte: prin omiterea unui numr aleatoriu de uniti, reeaua nu se va putea
adapta unei combinaii specifice. ns, prin omiterea doar a unei fraciuni, modelul care
trebuie clasificat i antrenat va fi recunoscut cu uurin. Spre exemplu, scrisul de mn
este recunoscut chiar daca anumite litere sunt lips. Reeaua cu dropped-out va lua n
considerare doar anumite corelaii ntre trsturi, ceea ce va conduce la o antrenare doar a
trsturilor care sunt mai robuste. n [223] s-a demonstrat c reeaua cu drop-out
prezint un grad de generalizare mai ridicat, obinnd rezultate superioare pe un numr
ridicat de probleme. Astfel, deoarece aceste reele neurale nu au probleme de
overfitting, este eliminat nevoia de utilizare a unei baze de validare pentru optimizarea
parametrilor.
8.4.3 Rezultate experimentale
Experimentele au fost efectuate n cadrul competiiei MediaEval, proba de Affect Task:

Violent Scenes Detection. A fost propus o baz de date de antrenare compus din 15
filme : Armageddon, Billy Elliot, Eragon, Harry Potter 5, I am Legend,
Leon, Midnight Express, Pirates of the Caribbean 1, Reservoir Dogs, Saving
Private Ryan, The Sixth Sense, The Wicker Man, Kill Bill 1, The Bourne
Identity, i The Wizard of Oz (cu o durat total de 27 ore i 58 min, 26.108 frame-uri
video, cu o durat a violenei de 9,39% din volumul total); baza de test alctuit din trei
filme: Dead Poets Society, Fight Club i Independence Day (o durat total de 6
ore 44 minute i 6.570 cadre, coninutul violent reprezentnd 4,92% din totalul
materialului video). ntreaga baz de date conine 1.819 segmente violente. Gradul de
violen este marcat la dou nivele: pentru fiecare frame este marcat prezena/absena
conceptelor de nivel mediu, corelate cu violena: prezena sngelui, a armelor albe, a
armelor de foc, njunghierii, focurilor de arm, ipetelor, urmririlor de maini,
exploziilor, luptelor i a focului, dar i la nivel de segment, prin marcarea segmentelor ca
fiind violente sau non-violente. Toate aceste marcaje au fost creeate de o echip de 9
oameni.
Descriptori video
Pentru descrierea coninutului video am utilizat o serie de descriptori care au obinut

rezultate bune n diverse scenarii de clasificare audio i video. Avnd n vedere
180
specificitatea problemei, vom extrage informaii att de culoare, audio ct i despre

structura temporal:
- descriptori audio [175]: am utilizat un set general de descriptori audio, i anume:
Linear Predictive Coefficients (LPC), Line Spectral Pairs (LSP), MFCC, Zero-
Crossing Rate (ZCR), spectral centroid, rolloff i kurtosis, toate acestea fiind
ponderate cu o fereastr de 0,8. Lungimea descriptorului este de 96 parametri.
- descriptori de culoare [48]: pentru descrierea culorii am utilizat histograma Color
Naming (11 culori), cu o lungime de 11 trsturi
- trsturi de form HOG [71]: imaginea a fost mprit n 3x3 regiuni, iar pentru
fiecare regiune se calculeaz 9 orientri.
- structura temporal (o singur trstur) calculeaz gradul de activiate vizual. Am
utilizat un detector de cut [224] care msoar gradul de discontinuitate dintre 2
histograme de culoare consecutive. Pentru a lua n considerare orice schimbare de
aciune, am setat o valoare redus care ia n considerare schimbrile importante de
aciune. Un nivel ridicat de aciune va putea fi corelat i cu conceptual de violen.
Pentru antrenarea sistemului am folosit baza de date de 15 filme. Procesul de
antrenare i testare a fost efectuat prin utilizarea tehnicii de cross-validare (antrenare
succesiv cu 14 filme i evaluare cu filmul rmas).
Rezultate MediaEval 2012
n acest experiment va fi prezentat o comparaie ntre metoda propus i algoritmii

prezentai n cadrul competiiei MediaEval 2012, proba de Affect Task: Violent Scenes
Detection [222]. n cadrul acestei probe, participanii au utilizat baza de 15 filme pentru
antrenare, n timp ce testarea a fost efectuat pe un set de 3 filme: Dead Poets Society
(34 scene violente), Fight Club (310 scene violente) i Independence Day (371 scene
cu violen) - un total de 715 scene violente (marcajele pentru baza de test au fost facute
publice dup competiie). Un numr total de 8 echipe participante au propus 36 de
metode. Evaluarea a fost fcut att la nivel de frame ct i la nivel de segment video.
Rezultatele sunt prezentate n Tabelul 8.6 (n ordine descresctoare a performanei). Prin
utilizarea a dou nivele de clasificatori (pentru concepte i violen), am obinut cea mai
ridicat performan, cu mai mult 6% dect a doua echip clasat (echipa
ShanghaiHongkong [225]), care a obinut un scor de 43,73%. Cea mai sczut
performan obinut de ctre metoda noastr a fost de 35,65%, prin utilizarea numai a
descriptorilor vizuali. ns, prin utilizarea doar a descriptorilor audio, performana
obinut este de 46,27%, ceea ce este mai mare cu 11 procente. Prin combinarea celor
dou trsturi (early fusion) se obine un rezultat de 44,58% (vezi ARF-(av)), n timp ce
prin combinarea acestora cu setul de probabiliti a conceptelor se obine o performan
de 42,44% (vezi ARF-(avc)). O alt observaie este c metoda propus ofer o
performan superioar n faa unor metode mai elaborate ca SIFT, BoAW de MFCC sau
181
trsturi de micare. De asemenea, utilizarea doar a scorurilor conceptelor ofer o

performan semnificativ mai mare dect utilizarea trsturilor individuale audio-vizuale.
Urmtorul experiment prezint esperimentele la nivel de segment. Segmentele
video sunt marcate ca violente i non-violente. Prin utilizarea conceptelor de nivel
mediu am obinut o precizie i reamintire de 42,21%, respectiv 40,38%, n timp ce scorul
este de 41,27%. Acest lucru conduce la o rat de eroare de 50,69%, n timp ce rata
alarmelor false este foarte mic, de numai 6%. Aceste rezultate sunt foarte promitoare
avnd n vedere dificultatea problemei, ct i a subiectivitii umane asupra conceptului
de violen.
Tab. 8.6 Comparaie cu rezultatele obinute la compeia MediaEval 2012
Echip Trsturi Canale Metod Precizie Reamintire Scor

ARF-(c) concepte audio- propus 46.14% 54.40% 49.94%
vizual
ARF-(a) audio audio propus 46.97% 45.59% 46.27%
ARF-(av) audio, color, HoG, audio- propus 32.81% 67.69% 44.58%
descriptori temporali vizual
Shanghai traiectorii, SIFT, STIP, audio- Netezire temporal+ 41.43% 46.29% 43.73%
Hongkong MFCC vizual SVM cu nucleu
[225]
ARF-(avc) Descriptori audio, de audio- propus 31.24% 66.15% 42.44%
culoare, HoG, vizual
temporali i concepte
TEC [226] TF-IDF B-o-AW [16], audio- Fuzionare: SVM 31.46% 55.52% 40.16%
descriptori de culoare vizual HIK & Bayes
Net. & Naive Bayes
TUM [227] energie i spectru audio SVM liniar 40.39% 32.00% 35.73%
audio
ARF-(v) color, HoG, temporal vizual propus 25.04% 61.95% 35.67%
LIG [228] color, texture, SIFT, audio- Fuziune ierarhic 26.31% 42.09% 32.38%
B-o-AW, MFCC vizual SVM & k-NN i
feedback conceptual
TUB [229] B-o-AW MFCC, audio- SVM RBF 19.00% 62.65% 29.71%
Descriptori de micare vizual
DYNI [230] MS-LBP vizual SVM liniar 15.55% 63.07% 24.95%
NII [231] Concepte nvate din vizual SVM RBF 11.40% 89.93% 20.24%
textur i culoare
Notaii: SIFT - Scale Invariant Features Transform, STIP - Spatial-Temporal Interest Points, MFCC - Mel-
Frequency CepstralCoefficients, SVM - Support Vector Machines, TF-IDF - Term Frequency-Inverse
Document Frequency, B-o-AW - Bag-of-Audio-Words, HIK - Histogram Intersection Kernel, k-NN - k
Nearest Neighbors, RBF - Radial Basis Function, MS-LBP - Multi-ScaleLocal Binary Pattern.
182
8.4.3 Concluzii
n acest capitol am prezentat o abordare naiv pentru problema deteciei violenei n

filmele de la Hollywood. n loc s fie utilizai descriptori care s nvee i s detecteze n
mod direct violena, aa cum fac de altfel cele mai multe sisteme, a fost prezentat o
metod care utilizeaz un pas intermediar care const n predicia conceptelor de nivel
mediu. Predicia conceptelor corelate cu violena reprezint o problem mai uor de
implementat, dect detecia direct a gradului de violen. Clasificarea a fost efectuat cu
o arhitectur paralel multiperceptron, care se potrivete foarte bine atunci cnd avem de
detectat un volum mare de cadre. Mai mult, eficiena detectrii segmentelor cu coninut
violent este remarcabil. Aceast metod s-a clasat pe locul 1 n cadrul competiiei
MediaEval 2012, proba de Affect Task. Totui, metoda prezint o limitare, i anume,
pentru antrenare este nevoie de adnotarea detaliat a conceptelor violente, ceea ce poate
conduce la erori din cauza subiectivitii umane.
8.5 Catalogarea poziiilor statice ale minii

n cadrul acestei seciuni voi aborda problema recunoaterii de poziii statice i voi
propune, alturi de autorul principal, o metod simpl bazat pe modelul Hidden Markov
Models, care utilizeaz trsturi extrase din conturul minii [232].
Recunoaterea de gesturi reprezint un domeniu intens studiat n computer vision
(interpretare de gesturi ale feei, minilor sau ale corpului). Aceste metode i propun s
deduc comportamentul uman prin analiza micrilor diferitelor pri componente ale
corpului. Detecia i interpretarea comportamentului uman poate fi utilizat ntr-o
multitudine de aplicaii. Spre exemplu, cnd vine vorba de interpretarea gesturilor cu
mna, acestea pot fi utilizate pentru navigarea automat n meniuri fr utilizarea de
telecomenzi, sau pentru interpretarea sau postarea automat a diferitelor mesaje.
Dezvoltarea recent a dispozitivelor cu senzori de adncime (spre exemplu MS Kinect12
i Asus Xtion13) a deschis noi perspective n rezolvarea paradigmei senzoriale, eliminnd
pierderea de performan datorit proieciei 2D, ocluziunilor sau a extragerii de fundal.
Un sistem eficient de recunoatere a gesturilor minii necesit o combinaie ntre
un set de trsturi discriminative care sunt rapid de extras i clasificatori capabili s
valorifice descriptorii anteriori. n literatur sunt prezentate diferite metode care prezint
o multitudine de avantaje i dezavantaje. Spre exemplu, descriptorii de nivel nalt sunt
preferai deoarece sunt compaci i prezint structura gestului din punct de vedere
semantic, ns sunt dificil de implementat n aplicaii ce ruleaz n timp real [233] [234].
12
http://www.microsoft.com/en-us/kinectforwindows/
13
http://www.asus.com/Multimedia/Xtion_PRO_LIVE/
183
Pe de alt parte, trsturile de nivel sczut (muchii, contururi) sunt de preferat datorit
vitezei ridicate de extracie [235].
n continuare, voi prezenta o metod utilizat n contextul recunoaterii de gesturi
statice cu mna prin utilizarea unui senzor de Kinect. n acest sens, am utilizat att
informaia de culoare ct i cea de adncime a senzorului. Robusteea metodei propuse
face ca sistemul s fie imun la schimbrile de fundal i invariant la modificrile de scal
i a uoarelor rotaii. Mai mult, fiecare cadru individual este procesat n 32 ms, suficient
de rapid pentru cele mai multe dintre aplicaiile n timp real. Aceast metod a fost
propus de autorul principal al articolului, contribuia mea n cadrul acestui algoritm
constnd n proiectarea bazei de date de testare, selecia i calculul performaei
algoritmilor utilizai n literatur, ct i a anumitor elemente din cadrul algoritmului.
8.5.1 Metoda propus
Primul pas al algoritmului const n izolarea gesturilor. Se va pleca de la premiza c

mna va fi obiectul cel mai apropiat de senzor, dup care se vor segmenta att informaia
de adncime ct i cea de culoare. Prima segmentare const n prguirea adaptiv a
informaiei de adncime care va separa obiectele mai apropiate de cele mai ndeprtate. A
doua segmentare const n detecia regiunilor care sunt posibile a fi de piele. Aceast
procedur n doi pai asigur faptul c mna este extras chiar dac avem n cadrul
fundalului obiecte ce conin culoarea pielii (spre exemplu faa).
Dup izolarea minii de fundal se va aplica un filtru median pentru eliminarea
neregularitilor din contur i extragerea unei imagini binare a formei minii. n cazul n
care vor fi extrase mai multe obiecte, se va selecta cel cu aria cea mai mare. Pentru
descrierea conturului se va utiliza descriptorul de aproximare poligonal descris n
Seciunea 3.3.7. Ultimul bloc al sistemului este cel de antrenare i clasificare. n acest
sens, autorul principal a propus utilizarea modelului Hidden Markov Model (HMM).
Acesta reprezint un model probabilistic des ntlnit n numeroase probleme de
inteligen artificial.
Modelul HMM reprezint un graf orientat cu trei parametri principali:
matricea de tranziii de stri care conine probabilitile de trecere de la o
stare la alta
distribuia probabilitilor strilor la un moment k
starea iniial a vectorilor de probabiliti
Pentru aplicarea acestui model vom considera descriptorii extrai ca un set
staionar de trsturi, conturul fiind modelat printr-un process probabilistic descris de un
automat secvenial cu stri finite care trece de la o stare la alta n funcie de probabilitile
de tranziie. Pentru antrenarea modelului se va utiliza algoritmul lui Viterbi.
184
Fig. 8.9 Schema sistemului propus pentru clasificarea gesturilor
8.5.2 Rezultate experimentale
Pentru antrenare i validare am utilizat baza de date propus n [236]. Aceast baz este
mprit n dou pri. Prima conine 9 gesturi (50 pentru fiecare categorie)
nregistrate n condiii lipsite de zgomot. Aceasta cuprinde gesturi nregistrate de ctre
o singur persoan i include mici variaii de scal, translaie i rotaie. Modelul
markovian este antrenat cu ajutorul acestor imagini. Pentru validarea sistemului este
folosit un al doilea set, imaginile fiind preluate de la aceeai persoan (n jur de 7300
de imagini). Pentru testare, a fost nregistrat o a doua baz de date, aceasta avnd o
arhitectur mult mai complicat, i anume include diferite grade de variaie a
luminozitii, fundal diferit i variaie ampl a unghiurilor de rotaie. n total, aceasta
cuprinde peste 8500 de imagini, nregistrate de ctre 6 persoane n faa unui dispozitiv
de Kinect. Subiecii au efectuat o gam variat de micri ntr-un interval de 1-1,5
metri n faa dispozitivului de Kinect.
n continuare, vom compara performana metodei propuse cu algoritmii [237]
i [238]. Primul algoritm utilizeaz o descriere structural a fiecrui gest bazat pe o
serie de trsturi de nivel nalt, ca de exemplu numrul de vrfuri ale degetelor,
numrul de segmente i poziia lor n cadrul poziiei minii. Clasificarea este
efectuat cu ajutorul unor arbori de decizie. A doua metod extrage un set de
descriptori de culoare mpreun cu momentele invariante Hu, pe care le combin apoi
cu un clasificator SVM. Mai mult, pentru a demonstra c algoritmul de clasificare
HMM este o soluie bun, voi compara performana acestuia cu un algoritm clasic de
clasificare: SVM.
185
Rezultatele experimentale sunt expuse n Figura 8.9, aceasta coninnd

precizia de clasificare pentru fiecare gest n parte. Metoda propus obine rezultate
medii superioare fa de toate celelalte metode (Tabel 8.4). Astfel, SVM obine un
rezultat cu 5 procente mai redus, n timp ce diferena de performan dintre metoda
propus i celelalte metode din literatur este mai mare de 20 de procente. n toate
cazurile, metoda propus obine rezultate foarte bune, de peste 80%, mai puin pentru
ultimul gest, acolo unde acurateea de clasificare este egal cu 79.38%.
Tab. 8.4 Comparaie cu algoritmii raportai n State-of-The-Art
Algoritm Acuratee de clasificare

Metod propus 93,38%
Opriescu i alii [237] 72,30%
Yun i alii [238] 69,22%.
SVM cu nucleu Chi 88,31%
Fig. 8.9 Rezultatele clasificrii pe fiecare gest utiliznd diferite metode de clasificare:
Metoda 1 [237] , Metoda 2 [238] , SVM i metoda propus
8.5.3 Concluzii
n cadrul acestei seciuni am prezentat o metod eficient pentru rezolvarea problemei

de clasificare a gesturilor statice de mn. Aceasta const n extragerea unor trsturi
clasice de contur i antrenarea sistemului cu un model statistic Hidden Markov
Model. Sistemul este robust la schimbri de persoane, scal, translaii i rotaii. De
asemenea, robustee adiional este adugat i de ctre senzorul Kinect care, cu
ajutorul senzorului de adncime, separ obiectele din prim plan de cele din fundal.
Rezultatele experimentele au confirmat puterea discriminatorie a trsturilor alese
alturi de flexibilitatea i abilitatea de generalizare a modelelor statistice.
186
Capitolul 9
Concluzii
Lucrarea de fa reprezint o formalizare a contribuiilor teoretice i practice n domeniul
indexrii i analizei bazelor de date multimedia. Prin intermediul acesteia, am rezumat
munca depus n ultimii trei ani, n perioada de formare tiinific a studiilor doctorale.
Punctul de plecare comun al tuturor metodelor i algoritmilor noi descrii pe
parcursul acestei lucrri a fost corelat cu nevoia de a creea sisteme care s indexeze i s
interpreteze coninutul multimedia. Utilizarea documentelor multimedia face parte din
viaa cotidian a oricui. Fie ca este vorba de muzic, informaii text, filme, sau imagini,
un sistem de indexare a coninutului are n componen anumite elemente comune, chiar
dac structura informaiei este una diferit.
n cadrul acestei teze am abordat mai multe scenarii i tipuri de sisteme de
indexare. Un prim tip de sistem de indexare a fost cel al bazelor de date de imagini
(sisteme CBIR). Astfel, am propus metode noi i am efectuat analize pe baze de date de
imagini medicale, imagini de textur sau imagini naturale. De asemeni, am ncercat s
reduc influena paradigmei semantice (semantic gap), prin propunerea i utilizarea unor
algoritmi de relevance feedback. Sistemele de indexare a documentelor video reprezint
un alt subiect discutat n aceast lucrare. n aceast direcie, a fost propus un set de
metode pentru indexarea i clasificarea bazelor de date video n diferite contexte: detecia
genului, a violenei sau interpretarea coninutului prin clasificarea aciunilor din cadrul
filmelor. n acest sens, coninutul video a fost analizat din mai multe perspective i
modaliti, informaia prelucrat fiind att de natur vizual, ct i audio i textual.
9.1 Rezultate obinute

n Capitolul 1 am realizat o trecere n revist a acestei teze. Astfel, am evideniat
componentele unui sistem de indexare a sistemelor dup coninut i am evideniat
seciunile n care am adus contribuii.
n cadrul Capitolului 2 am prezentat o sintez a componentelor consacrate pentru
un sistem de indexare multimedia: browser, retriever i indexator. Se pune accentul pe
problematica actual a sistemelor de cutare dup coninut i sunt prezentate diferite
domenii n care indexarea joac un rol important. De asemenea, am prezentat principalele
canale de informaie pe care un sistem le poate analiza: vizual, audio i textual. Apoi, am
ilustrat comparativ aspecte generale referitoare la fuzionarea acestor canale
informaionale: tehnici de early i late fusion. Se prezint metricile utilizate de ctre
187
algoritmi pentru calcularea similaritii sau disimilaritii dintre documente. Pentru

evaluarea rezultatului algoritmilor de indexare sunt prezentate i msurile de evaluare. De
asemenea, se prezint seturile de date standard existente sau utilizate pentru algoritmii de
clasificare i indexare n etapele de antrenare i respectiv de testare.
Capitolul 3 ilustreaz o analiz detaliat a descriptorilor utilizai pentru diferite
canale de informaie. n prima parte sunt analizai descriptorii vizuali i sunt trecute n
revist trsturile de culoare, textur, form i de detecie a punctelor de interes. Mai
mult, un modul special este creeat pentru prezentarea standardului MPEG-7 i a
descriptorilor afereni. Apoi, cte o seciune separat este oferit prezentrii conceptelor
i trsturilor audio, de micare i text.
n cadrul Capitolului 4 am prezentat o serie de algoritmi de Relevance Feedback.
Au fost descrii algoritmi de relevance feedback cu schimbare a punctului de interogare,
cu estimare a importanei trsturilor, statistici i algoritmi RF cu algoritmi de clasificare.
n Capitolul 5 am prezentat o abordare neliniar pentru descrierea i clasificarea
imaginilor de textur. Textura reprezint o component de baz att pentru algoritmii de
recunoatere de patern, ct i pentru sistemele de indexare a imaginilor si documentelor
video. Metoda propus a fost inspirat din teoria automatelor celulare. n acest scop, a
fost utilizat un automat celular simplu, cu dou stri (0 i 1) i vecintate Moore. Iniial,
textura este binarizat cu ajutorul unor seturi de praguri, ca apoi, asupra acestor imagini
binarizate s fie aplicate un set de funcii neliniare. Performana descriptorului a fost
validat att n contextul unui sistem de clasificare ct i din perspectiva unui sistem de
cutare a imaginilor dup coninut. Astfel, am utilizat patru baze de date de textur,
pentru a compara descriptorul nostru cu alte trsturi existente. Algoritmul propus, n
ciuda complexitii sale reduse (kO(n)), poate reprezenta o bun alternativ la descriptorii
clasici de textur. n toate experimentele propuse, algorimul a obinut rezultate similare
sau mbuntite, pe toate cele 4 baze de date. De asemenea, metoda a fost validat din
dou perspective, att pentru un sistem clasic de cutare (query by example), ct i din
prisma unui sistem de clasificare.
n cadrul Capitolului 6 este prezentat cea de-a doua contribuie propus. Aceasta
se reflect n aplicarea modelului Fisher kernel pentru aplicaiile de indexare multimedia,
privit ca o modalitate nou de a captura n mod adecvat informaia temporal. Dac cele
mai multe sisteme de clasificare de documente video se bazeaz pe utilizarea unei
reprezentri pentru toat secvena video, iar noiunea temporal este pierdut din diferite
motive, modelul Fisher Kernel creeaz o reprezentare de lungime fix, dar care ia n
calcul structura informaiei temporale. Acest model combin beneficiile algoritmilor
generativi i discriminativi, avnd un caracter general, n funcie de problema selectat:
de la recunoatere de gen, pn la recunoatere de secvene sportive i aciuni cotidiene.
Metoda propus a obinut rezultate cu mult mbuntite fa de simpla acumulare
a informaiei (de la 8% pn la 27% performana este mai mare). Asfel, pentru
experimentul de detecie a genului, am mbuntit performana (valori MAP)
188
descriptorilor clasici de culoare Color Naming de la 0,18 la 0,33, al descriptorilor

Histograms of Oriented Gradients de la 0,23 la 0,43, n timp ce performana descriptorilor
audio a crescut de la 0,34 la 0,47. n cadrul celui de-al doilea experiment efectuat, i
anume cel de detecie de aciuni sportive, performana este mult mai ridicat. Astfel,
pentru setul de descriptori Histograms of Optical Flow, acurateea a fost mbuntit de
la 45% la 72%, a descriptorilor HOG de la 34% la 52%, n timp ce a descriptorilor Color
Naming de la 20% la 42%. De asemenea, n cadrul celui de-al treilea experiment propus,
cel de detecie de aciuni cotidiene, performana a fost mbuntit de la 78% la 89%,
pentru setul de descriptori HOF. Rezultatele obinute sunt de cele mai multe ori mai bune,
sau cel puin similare cu cele raportate n literatur. Astfel, pentru problema deteciei de
gen, performanele obinute depesc cu mult rezultatele raportate n cadrul competiiei
MediaEval 2012 Tagging Task. Pentru trsturile audio, am obinut o perfoman de
0,475 MAP, cu mult mai bine dect performana raportat la MediaEval 2012 de 0,1892
(echipa ARF). De asemenea, i descriptorii vizuali au o performan superioar n faa
celor raportai la MediaEval 2012, descriptorii propui obinnd o performan de 46,5%
cu peste 11 procente mai ridicat fa de maximul raportat. Mai mult, rezultate
remarcabile sunt obinute prin combinaia trsturilor vizuale cu cele audio. Acestea obin
o performan de 0,55 ceea ce este chiar superioar performanei obinute de cele mai
bune echipe la MediaEval 2012, care au o performan de 0,52 MAP. ns, rezultatul din
urm utilizeaz descriptori de nivel semantic de nivel nalt, cum ar fi textul extras prin
metode de recunoatere automat vorbirii sau cu ajutorul metadatelor. De asemenea, n
cazul n care combinm trsturile noastre cu trsturi de text, obinem 0,66 MAP, un
rezultat mai bun cu 0,13 MAP fa de cea mai bun echip din competiie.
n ceea ce privete problema de detecie a aciunilor sportive, am obinut rezultate
similare celor raportate n literatur. Totui, metoda propus utilizeaz descriptori foarte
simpli, cum ar fi HoG, HoF si CN, n timp ce metodele cu rezultate similare utilizeaz un
set de descriptori care genereaz un efort computaional foarte ridicat. Mai mult,
algoritmul Fisher kernel aplicat prilor componente ale corpului a obinut cea mai mare
performan, de 97,3%, n timp ce ceilali algoritmi au obinut o performan cu cteva
procente mai redus.
Aadar, putem concluziona c metoda Fisher kernel obine rezultate similare sau
mai bune dect cele prezentate n literatur, ns aceasta utilizeaz descriptori globali care
sunt mult mai rapizi i uor de implementat.
n Capitolul 7, am propus o serie de algoritmi de relevance feedback pentru
diverse probleme de indexare a bazelor multimedia. Iniial, am prezentat un algoritm de
relevance feedback care combin principii inspirate din metoda clasic de RF Rocchio,
cu trsturi similare celor utilizate n metodele de estimare a importanei descriptorilor.
Algoritmul a fost testat pe baze de date de textur i de imagini naturale. Strategia de
relevance feedback mbuntete performanele sistemului n mod considerabil, un
exemplu ar fi aplicarea algoritmului propus pentru setul de imagini de textur, unde
189
performana crete de la 71% la 87%, n timp ce pentru baza de imagini naturale rata de
recunoatere aproape se dubleaz de la 37% la 60% MAP. Mai mult, algoritmul propus
obine rezultate superioare fa de ceilali algoritmi: spre exemplu, n cazul imaginilor de
textur, performana crete cu peste 2 procente i cu 8 procente n cazul bazei de imagini
naturale.
Al doilea algoritm de relevance feedback propus utilizeaz o structur
arborescent capabil s nvee rapid i eficient preferinele utilizatorului, chiar dac
utilizm un set restrns de exemple de nvare. Iniial, algoritmul a fost propus pentru
mbuntirea performanei bazelor de date cu imagini naturale. n acest scop, am testat
pe dou baze de date publice i foarte cunoscute: Caltech 101 i Microsoft. Prin utilizarea
setului de descriptori MPEG 7, metoda propus prezint o cretere de performan de la
30,21% la 64,52%. Cea mai mic cretere de performan este obinut pe baza de date
Caltech 101, folosind Bag of Visual-Words (SURF): de la MAP egal cu 10,90% pn la
18,44%. Mai mult, n cazul n care efectum sesiuni multiple de feedback, performana
poate fi mbuntit pn la 84,71%, pentru baza Microsoft, n timp ce pentru Caltech
101 se obine o cretere pn la 55,78%. Pentru ambele baze de date, metoda propus
obine rezultate mai bune dect cele raportate n literatur (3% pentru Caltech 101 i 6%
pentru baza Microsoft).
Ultimul algoritm de relevance feedback este inspirat de modelul Fisher kernel,
fiind propus n contextul indexrii de bazelor de date video web. Algoritmul a fost testat
pe o varietate de descriptori multimedia: vizuali, audio i textuali. Testat pe o baz de
date mare (MediaEval 2012), i utiliznd o serie de descriptori care reprezint state-of-
the-art (vizuali, audio i text), metoda noastr FKRF mbuntete performana
rezultatelor, surclasnd alte metode existente ca: Rocchio, Nearest Neighbors RF, Boost
RF, SVM RF, Random Forest RF i RFE. Mai mult, n cazul n care capturm informaia
temporal utiliznd Fisher kernel, performana este drastic mbuntit de la 40,80% la
45,83% pentru MPEG 7 i de la 29,59% la 32,87% pentru trsturile HoG. De asemeni,
am artat c nu este necesar un numr ridicat de centroizi GMM pentru a antrena metoda,
aceasta obinnd rezultate bune cu numai 5-10 centroizi. Astfel, agoritmul este rapid,
putnd fi implementat n sisteme n timp real.
n Capitolul 8 am prezentat diferii algoritmi i soluii pentru anumite probleme
de interes de clasificare multimedia. n prima parte a capitolului, am ilustrat metode i
studii efectuate pe dou baze de date medicale. Primul experiment a fost creat pe o baz
de date de imagini otoscopice i i propunea detecia otitei din imagini extrase de
otoscop. O prim baz conine imagini medicale otoscopice, iar algoritmul propus este un
sistem utilizat n detecia otitei la copii. n cadrul acestui experiment am propus un set de
descriptori i o arhitectur de fuziune clasic pentru combinarea trsturilor de culoare,
textur i puncte de interes. Sistemul propus a obinut un rezultat mai bun cu 14% dect
cele raportate n literatur, ceea ce reprezint o mbuntire considerabil.
190
A doua baz de date conine o diversitate de tipuri de celule canceroase sangvine

canine, preluate la microscop. n cadrul acestui experiment, am abordat problema analizei
i clasificrii de imagini medicale. n acest sens, am studiat contribuia unui set extins de
trsturi de culoare, textur i puncte de interes, dar i performana a mai multor
clasificatori. Studiul a fost efectuat pe un scenariu real, o baz de date cu imagini
medicale extrase de ctre Facultatea de Medicin Veterinar Bucureti. Rezultatele
obinute au fost ncurajatoare. Spre exemplu, cel mai bun procent de clasificare, de
99,45%, a fost obinut prin combinarea descriptorilor SURF cu clasificatorul Nearest
Neighbor.
n a doua parte a capitolului, am propus un set de metode i sisteme pentru
indexarea coninutului multimedia. O prim aplicaie propus a fost detecia genului
pentru fiierele video web. Iniial, un sistem de clasificare a genului a fost propus n
cadrul competiiei MediaEval 2012 Video Genre Retrieval Task. n cadrul acestei
competiii, am fost membru al echipei ARF (Austrian Romanian French team). Au fost
propuse 5 metode, dintre care a treia s-a clasat pe locul 2 (din 29 de sisteme propuse).
Mai mult, ulterior am propus o nou abordare multimodal a problemei, n care
rezultatele obinute au fost cu mult superioare celor raportate n cadrul competiiei.
n cadrul MediaEval, descriptorii textuali (metadate i ASR) au obinut cea mai
ridicat performan, i anume 52,25%. ns, rezultatele descriptorilor textuali propui
sunt mult mai ridicate. Astfel, am obinut 58,66% cu descriptorii de metadate. Apoi, prin
fuziunea descriptorilor text (ASR i metadate), performana crete pn la 62,81% - o
diferena de performan este de peste 10% fa de prima echip clasat i cu peste 25%
fa de a doua echip clasat. n ceea ce privete descriptorii vizuali, am obinut o
performan cu trei procente mai ridicat (MAP 38,21%) dect cel mai bun sistem cu
trsturi vizuale, raportat la MediaEval 2012. Setul de trsturi audio a obinut i el
performane superioare: 44,5% MAP, n condiiile n care cel mai bun rezultat obinut n
cadrul competiiei a fost de numai 18,92% (se poate observa o mbuntire cu mai bine
de 25% MAP). Prin combinarea tuturor modalitilor, am obinut cea mai mare rat de
clasificare de 65,82%, ceea ce reprezint o mbunire a performanei cu peste 13
procente fa de cea mai bun performan de la MediaEval 2012. De asemeni, am
demonstrat c performane foarte bune se pot obine doar cu trsturi care pot fi extrase
automat. Prin utilizarea tuturor descriptorilor, mai puin metadate, obinem o performan
foarte mare de 51,9%, similar celui mai bun rezultat din concurs.
A doua aplicaie propus este detecia seciunilor violente n filmele de la
Hollywood. O prim variant a sistemului a fost propus n cadrul workshop-ului
MediaEval 2012, competiia Affect Task. n cadrul acesteia, am fost membru al echipei
ARF (Austrian Romanian France Team) cu care am obinut locul 1 (din 35 de sisteme
propuse). n cadrul acestei seciuni au fost propuse un set de tehnici pentru rezolvarea
problemei de detecie a violenei n filmele de la Hollywood. Cele mai multe metode au
propus un set de descriptori pentru descrierea coninutului video i un clasificator pentru
191
antrenarea sistemului. Primul autor a propus o metod care utilizeaz un pas intermediar,
ce const n predicia conceptelor asociate cu violena, ca de exemplu: ipete, explozii,
sunete de arme etc. Predicia conceptelor corelate cu violena a reprezentat o problem
mai uor de implementat dect detecia direct a gradului de violen. Prin utilizarea
acestei arhitecturi, s-a obinut cea mai ridicat performan, cu mai mult 6% dect a doua
echip clasat (echipa ShanghaiHongkong), care a obinut un scor de 43,73%. n
cadrul acestui algoritm am avut contribuii pentru descrierea vizual a coninutului
multimedia. Nu n ultimul rnd, metoda propus a fost singura din competiie care a putut
fi implementat att la nivel de segment ct i la nivel de cadru.
n finalul capitolului am prezentat o metod nou de recunoatere a gesturilor
statice de mn. Algoritmul propus const n extragerea unor trsturi clasice de contur i
antrenarea sistemului cu un model statistic Hidden Markov Model. Acesta este robust la
schimbri majore de fundal, persoane, luminozitate, obinnd n acelai timp performane
mai bune dect ali algoritmi prezentai n literatur.
Prezenta tez se ncheie cu Capitolul 9 care este dedicat prezentrii concluziilor
care se desprind din aspectele teoretice i practice ale cercetrilor prezentate n aceast
lucrare i care sintetizeaz rezultatele i contribuiile personale originale, precum i
perspectivele de cercetare.
9.2 Contribuii originale

Din punct de vedere tiinific, contribuiile originale din perioada de cercetare a lucrrii
de doctorat sunt urmtoarele:
n [c1] am propus o abordare neliniar pentru descrierea i clasificarea imaginilor de
textur. Performana trsturilor propuse este validat att n contextul unui sistem de
clasificare ct i din perspectiva unui sistem de cutare a imaginilor dup coninut,
testarea fiind efectuat pe o gam variat de baze de textur. Algoritmul propus se
impune prin simplitate i complexitate redus de calcul, reprezentnd o bun
alternativ la descriptorii clasici de textur, deoarece prezint performane similare
sau mai ridicate fa de algoritmii prezentai n literatur.
n [c2], alturi de autorii principali, am propus un sistem pentru analiza i clasificarea
filmelor web. Descrierea coninutului multimedia a fost efectuat att prin analiza
informaiei vizuale, ct i a celei audio. n acest sens, au fost propuse metode care
exploateaz att informaia audio i structura temporal, ct i coninutul de culoare.
Experimentele au fost efectuate pe o baz de date public, MediaEval 2011 pentru
proba de Genre Retrieval Task, considerat a fi un scenariu real de testare. Metoda
propus a obinut cele mai bune performane fa de toi descriptorii audio-vizuali
propui n cadrul competiiei MediaEval 2011, dar i performane apropiate cu cele
ale descriptorilor textuali.
192
am participat la competiia MediaEval 2012 - proba de Genre Retreival Task [c3] i

am propus mpreun cu echipa ARF un set de descriptori multimodali (vizuali, audio
i text) pentru detecia genului n filme. n cadrul acestei competiii, am obinut locul
2 pentru cel mai bun sistem de detecie (din 29 de sisteme propuse).
alturi de ceilali membrii ai echipei ARF [c4], am participat la competiia MediaEval
2012 - proba de Genre Retrieval Task unde am elaborat un sistem de detecie a
violenei n filmele de la Hollywood. Algoritmul propus s-a clasat pe locul 1 din 35
de sisteme propuse.
n [c8] am investigat influena aplicrii algoritmilor de relevance feedback asupra
unui sistem generic biomedical, bazat pe un set de descriptori MPEG 7. Rezultatele
au demonstrat c relevance feedback poate mbunti performanele cu peste 20%.
n [c9] am propus un studiu de comparaie ntre diferite metode de clasificare pentru
diferite scenarii ale unui sistem CBIR: baze de date biomedicale, de textur i de
imagini naturale. Astfel, am analizat algoritmii de clasificare din mai multe
perspective, a performanei de clasificare i a vitezei de execuie.
n [c10, c14, c16] am prezentat o nou metod de relevance feedback bazat pe un
algoritm de clusterizare ierarhic. Metoda propus a prezentat performane superioare
fa de alte metode propuse n literatur. De asemenea, algoritmul a fost testat pe o
arie larg de baze de date de imagini: biomedicale, de textur, naturale i web.
n [c1, c12, c15] am extins algoritmul de relevance feedback propus anterior pentru
baze de date multimedia. Astfel, am artat c relevance feedback poate avea un
impact major asupra performanei unui sistem multimedia web. De asemenea, metoda
propus a prezentat performane superioare fa de alte metode propuse n literatur,
fiind testat pe o arie larg de baze de date video: baza de date MediaEval 2011
pentru proba de Genre Retrieval Task i baze de date de video-uri web. Algoritmul de
relevance feedback cu clusterizare ierarhic se evideniaz att prin performana mai
ridicat, ct i prin viteza sa computaional, aceasta fiind cu mult superioar altor
agoritmi, ca de exemplu SVM.
n [c16] am analizat influena diferitelor metrici asupra performanei unui sistem de
cutare a imaginilor dup coninut.
n [c11] am prezentat un nou algoritm de relevance feedback care propune o nou
metod de estimare a importanei trsturilor, alturi de o nou strategie de schimbare
a punctului de interogare. Algoritmul a fost testat pe baze de date de textur i de
imagini naturale i s-a evideniat printr-o cretere considerabil a performanelor, n
timp de viteza computaional a rmas similar cu cea a algoritmilor clasici.
n [c6, c13] am abordat problema analizei i clasificrii imaginilor otoscopice. n
acest sens, au fost analizate contribuiile unui set extins de descriptori vizuali de
culoare, textur i puncte de interes. De asemenea, a fost propus utilizarea unui
mecanism de fuzionare late fusion a acestor trsturi.
193
am ajutat la construirea mai multor baze de date multimedia. n [c9, c10, c11] am
utilizat o baz de date de imagini naturale, cu un total de 2700 documente, preluate de
pe internet prin utilizarea unor cutri specifice pe motorul de cutare Google.
Aceasta are n componen 100 de categorii de imagini clasice naturale, ca de
exemplu: anotimpuri, cldiri, ocean, deert, copii, concerte, portrete, picturi, orae
faimoare (Londra, Paris etc), persoane, sport, animale, mncare. O a doua baz de
date este cea utilizat n [c12]. Aici, am propus o baz de date video, iar aceasta a fost
folosit pentru antrenarea unui sistem de categorizare a genului unui film. Aceast
baz cuprinde 91 de ore de coninut video mprit n 7 categorii: filme de animaie
(filme scurte, lungi i seriale), reclame, documentare (viaa slbatic, ocean, orae i
istorie), videoclipuri (pop, rock i dance), tiri i sport (fotbal). n total, baza conine
210 documente video, 30 pe gen. De asemenea, am ajutat la crearea bazei de date de
gesturi statice utilizate n [c25]. n final, n [c5] am ajutat la construirea bazei pentru
seciunea de Diversity Task din cadrul MediaEval 2013.
n [c20] am propus un nou algoritm de relevance feedback pentru bazele de date
video, utiliznd Fisher kernels. Testat fiind pe o baz de date mare (MediaEval
2012) i utiliznd o serie de descriptori state-of-the-art (vizuali, audio i text), metoda
noastr FKRF mbuntete performana rezultatelor, surclasnd alte metode
existente ca: Rocchio, Nearest Neighbors RF, Boost RF, SVM RF, Random Forest
RF i RFE. De asemeni, am prezentat o metod de a captura informaia temporal,
utiliznd Fisher Kernel, astfel nct s folosim mai mult de un vector descriptor
pentru un document video. Am artat c nu este necesar un numr ridicat de centroizi
GMM pentru a antrena metoda, aceasta obinnd rezultate bune cu numai 5-10
centroizi, fapt ce implic posibilitatea implementrii n timp real.
n [c21, c22] am propus o metod pentru detecia automat a genului unui film. n
aceast direcie am studiat contribuiile diferitelor modaliti i rolul mecanismului de
fuzionare n combinarea informaiei i creterea performanei. Dei metodele propuse
au fost mai mult sau mai puin explorate anterior n literatur, principalele contribuii
ale acestui capitol sunt: (a) o analiz n profunzime a unui set multimodal de
descriptori, n contextul unui scenariu real de detecie de gen, (b) dovedirea
potenialului pe care l are o strategie adecvat de late-fusion, pentru a atinge o
performan foarte bun, (c) demonstrarea c, n ciuda superioritii descriptorilor de
metadate, descriptorii multimodali n combinaie cu late fusion pot atinge
performane similare, (d) instituirea unui nou punct de plecare pentru baza de date
MediaEval, obinnd rezultate superioare celor raportate n cadrul competiiei i (e)
relevana rezultatelor ce le face s fie i reproductibile ntruct evaluarea s-a fcut pe
o baz de date standard.
n [c23] am extins modelul variaiei temporale propus n [c20], pentru un set larg de
probleme. Metoda propus pentru modelarea variaiei temporale are un caracter foarte
general, fiind testat pe o varietate de baze de date de referin: de la clasificare de
194
gen (MediaEval 2012) pn la recunoatere de aciuni sportive (UCF Sport 50) sau de
aciuni cotidiene (ADL). Mai mult, algoritmul propus a fost evaluat pe o varietate de
trsturi, de la histograme HOG, CN i HoF pn la trsturi HoF extrase pe
componentele corpului uman i trsturi clasice audio. Sistemul propus a obinut
rezultate similare sau mai bune dect cele propuse n literatur, dei am utilizat un set
de trsturi mai uor de calculat.
n [c6] am propus o interfa grafic (Id-Image) pentru indexarea i manipularea
bazelor de date de imagini.
n [c25], alturi de primul autor, am propus o metod pentru clasificarea automat a
gesturilor clasice ale minii.
9.3 Lista lucrrilor originale

Articole publicate n reviste de specialitate
[c1] Ionu Mironic, Radu Dogaru, A novel feature-extraction algorithm for efficient
classification of texture images, in Scientific Bulletin of UPB, Seria C - Electrical
Engineering, vol 75(2), pp. 101-114, ISSN 2286 3540, 2013.
[c2] Bogdan Ionescu, Klaus Seyerlehner, Ionu Mironic, Constantin Vertan, Patrick
Lambert, An Audio-Visual Approach to Web Video Categorization, Multimedia
Tools and Applications, pp. 1-26, DOI 0.1007/s11042-012-1097-x 2012 (factor
impact ISI 0.91).
Competiii
[c3] participare MediaEval 2012 seciunea Tagging Task membru n cadrul echipei
ARF, cu membrii: Bogdan Ionescu, Ionu Mironic, Klaus Seyerlehner, Peter
Knees, Jan Schlter, Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert
Am obinut locul 2 pentru pentru cel mai bun sistem (din 29 de sisteme propuse)
[c4] participare MediaEval 2012 seciunea Violence Detection membru n cadrul
echipei ARF, cu membrii: Jan Schlter, Bogdan Ionescu, Ionu Mironic, Markus
Schedl Am obinut locul 1 pentru pentru cel mai bun sistem (din 35 de sisteme
propuse)
[c5] organizare Mediaeval 2013 - seciunea Diversity Task - membru organizator n
echipa format de: Bogdan Ionescu, Maria Menndez, Adrian Popescu,
Henning Mller, Anca-Livia Radu, Ionu Mironic i Bogdan Boteanu
195
Rapoarte de cercetare
[c6] Raport de cercetare numrul 1: Sisteme de Cutare a Imaginilor dup Coninut,

prezentat n iunie 2011
[c7] Raport de cercetare numrul 2: Sisteme de Relevance Feedback, prezentat n
iunie 2012
Articole publicate n conferine internaionale
[c8] Ionu Mironic, Constantin Vertan, Relevance feedback approaches for MPEG-7
content-based biomedical image retrieval, in Proc. of Communications COMM,
pp. 185-188, IEEE Catalog Number: CFP1041J-ART, ISBN: 978-1-4244-6363-3,
iunie 2010, Bucureti, Romania - indexat ISI.
[c9] Ionu Mironic, Radu Dogaru, A comparison between various classification
methods for image classification stage in CBIR, Signals, Circuits and Systems
(ISSCS), pp. 301-304, (IEEE Catalog number CFP11816-PRT, ISBN 978-1-4577-
0201-3), iulie 2011, Iai Romania - indexat ISI.
[c10] Ionu Mironic, Constantin Vertan An Adaptive Hierarchical Clustering
Approach for Relevance Feedback in Content-based Image Retrieval Systems,
Signals, Circuits and Systems (ISSCS), pp. 133-136, (IEEE Catalog number
CFP11816-PRT, ISBN 978-1-4577-0201-3), iulie 2011, Iai, Romania - indexat
ISI.
[c11] Ionu Mironic, Constantin Vertan A Modified Feature Relevance Estimation
Approach to Relevance Feedback in Content-Based Image Retrieval Systems,
Signal Processing and Applied Mathematics for Electronics and Communications,
Eurasip, pp. 109-113, 26-28 august, 2011, Cluj-Napoca, Romania.
[c12] Ionu Mironic, Constantin Vertan, Bogdan Ionescu A Relevance Feedback
Approach to Video Genre Retrieval, International Conference on Intelligent
Computer Communication and Processing, pp. 327-330, (ISBN 978-1-4577-1478-8,
IEEE Catalog No. CFP1109D-PRT), august, 2011, Cluj-Napoca, Romania -
indexat ISI.
[c13] Ionu Mironic, Constantin Vertan, Dan Cristian Gheorghe Automatic Pediatric
Otitis Detection by Classification of Global Image Features, International
Conference on e-Health and Bioengineering, EHB, pp. 427-430, ISBN: 978-606-
544-078-4, noiembrie, 2011, Iai, Romania - indexat ISI.
[c14] Ionu Mironic, Bogdan Ionescu, Constantin Vertan, Hierarchical Clustering
Relevance Feedback for Content-Based Image Retrieval, IEEE/ACM 10th
International Workshop on Content-Based Multimedia Indexing, pp. 187-192,
ISBN: 978-1-4673-2369-7, IEEE Catalog Numbers: CFP1214C-ART, CFP1214C-
USB, 27-29 iunie, Annecy, Frana, 2012 - indexat ISI.
196
[c15] Bogdan Ionescu, Klaus Seyerlehner, Ionu Mironic, Constantin Vertan, Patrick
Lambert, Automatic Web Video Categorization using Audio-Visual Information and
Hierarchical Clustering Relevance Feedback, 20th European Signal Processing
Conference - EUSIPCO 2012, pp. 375-379, ISSN 2076-1465, 27-31 august,
Bucureti, Romania - indexat ISI.
[c16] Ionu Mironic, Bogdan Ionescu, Constantin Vertan, The Influence of the
Similarity Measure to Relevance Feedback, 20th European Signal Processing
Conference - EUSIPCO 2012, pp. 1573-1576, ISSN 2076-1465, 27-31 august,
Bucureti, Romania, 2012 - indexat ISI.
[c17] Jan Schlter, Bogdan Ionescu, Ionu Mironic, Markus Schedl, ARF @
MediaEval 2012: An Uninformed Approach to Violence Detection in Hollywood
Movies, MediaEval Benchmarking Initiative for Multimedia Evaluation workshop
Pisa, Italia, 4-5 octombrie, 2012.
[c18] Bogdan Ionescu, Ionu Mironic, Klaus Seyerlehner, Peter Knees, Jan Schlter,
Markus Schedl, Horia Cucu, Andi Buzo, Patrick Lambert, ARF @ MediaEval
2012: Multimodal Video Classification, MediaEval Benchmarking Initiative for
Multimedia Evaluation workshop, Pisa, Italia, 4-5 octombrie, 2012.
[c19] Bogdan Ionescu, Jan Schlter, Ionu Mironic, Markus Schedl, A Naive Mid-
level Concept-based Fusion Approach to Violence Detection in Hollywood
Movies, ACM International Conference on Multimedia Retrieval - ICMR 2013,
pp. 215-222, ISBN: 978-1-4503-2033-7, Dallas, Texas, USA, 16 19 aprilie, 2013
- indexat ISI.
[c20] Ionu Mironic, Bogdan Ionescu, Jasper Uijlings, Nicu Sebe, Fisher Kernel based
Relevance Feedback for Multimodal Video Retrieval, ACM International
Conference on Multimedia Retrieval - ICMR 2013, pp. 65-72, ISBN: 978-1-4503-
2033-7, Dallas, Texas, USA, 16 19 aprilie, 2013 - indexat ISI.
[c21] Ionu Mironic, Bogdan Ionescu, Peter Knees, Patrick Lambert, An In-Depth
Evaluation of Multimodal Video Genre Categorization, IEEE/ACM 11th
International Workshop on Content-Based Multimedia Indexing - CBMI,
Veszprm, Ungaria, iunie, 2013 - indexat ISI.
[c22] Ionu Mironic, Bogdan Ionescu, Christoph Rasche, Patrick Lambert, A Visual-
based Late-Fusion Framework for Video Genre Classification Signals, Circuits
and Systems (ISSCS), iunie 2013, Iai, Romania - indexat ISI.
[c23] Ionu Mironic, Jasper Uijlings, Negar Rostamzadeh, Bogdan Ionescu, Time
Matters! Capturing Temporal Variation in Video using Fisher Kernels, in ACM
Multimedia - ACM MM 2013, Barcelona, Spania, octombrie 2013 - indexat ISI.
[c24] Negar Rostamzadeh, Gloria Zen, Ionu Mironic, Jasper Uijlings, Nicu Sebe,
Daily Living Activities Recognition via Efficient High and Low Level Cues
Combination and Fisher Kernel Representation, International Conference on
197
Image Analysis and Processing, ICIAP, Napoli, Italia, septembrie, 2013 - indexat
ISI.
[c25] Radu-Laureniu Vieriu, Ionu Mironic, Bogdan-Tudor Gora, Background
Invariant Static Hand Gesture Recognition based on Hidden Markov Models,
Signals, Circuits and Systems (ISSCS), iunie 2013, Iai, Romania - indexat ISI.
Cri
[c26] Bogdan Ionescu, Ionu Mironic, Conceptul de Indexare Automat dup

Coninut n Contextul Datelor Multimedia, trimis spre editare (103 pagini).
9.4 Perspective de dezvoltare ulterioar

Dei aceast i propune s marcheze o perioad de cercetare, munca descris n aceast
tez este departe de a se fi ncheiat.
O prim aplicaie care poate fi mbuntit este cea de detecie i clasificare a
imaginilor de textur. n acest sens, mi propun s mbuntesc performana algoritmului
i s l adaptez altor tipuri de categorii de imagini, ca de exemplu imagini medicale sau
imagini naturale. De asemenea, mi propun s testez alte tipuri de funcii nucleu i tehnici
adaptive de binarizare a imaginilor, dar i s aplic algoritmul pe toate cele trei canale ale
unei imagini color. O alt direcie pe care a dori s o am n vedere, este utilizarea
metodei ca descriptor n cadrul modelului Bag-of-Words. Algoritmul prezint o precizie
i vitez ridicat pentru detecia de texturi, ceea ce l poate face o alternativ serioas
pentru descrierea punctelor de interes.
O alt direcie de cercetare pe care mi propun s o extind este cea de relevance
feedback. Aa cum am artat n aceast lucrare, tehnicile de relevance feedback
reprezint o bun alternativ pentru reducerea problemei generate de paradigma
semantic, ceea ce reprezint de altfel principala problem existent a sistemelor de
indexare multimedia. n viitor, mi propun s combin metoda Fisher Relevance Feedback
cu alte trsturi mai complexe, i s extind conceptul de modelare a informaiei
temporale, pentru descriptori ca cei de: micare, text sau audio. Mai mult, mi doresc s
testez metoda propus pe o baz multimedia de dimensiuni foarte mari. n acest sens mi
propun crearea unei baze de date de documente video web cu filme preluate de pe cele
mai importate site-uri din domeniu: spre exemplu, Youtube sau blip.tv. De asemenea,
modelul Fisher kernel pentru relevance feedback poate fi extins i pentru baze de date de
imagini. Prin coresponden, ideea temporal de la nivel de video poate fi transformat n
modelare spaial la nivel de imagine, iar agregarea la nivel de frame poate fi
transformat n agregare la nivel de puncte de interes.
198
Capitolul 10
Bibliografie
[1] S. Santini: Exploratory Image Databases Content-based Retrieval, Academic Press,
Inc. Duluth, MN, USA, ISBN:0-12-619261-8, 2001.
[2] D. H. Brown, C.M. Ballard, Computer Vision, Prentice-Hall, Englewood Cliffs,
N.J., 1982.
[3] R. Haralick, L. Shapiro, Computer and Robot Vision II, Addison-Wesley, Reading,
MA, 1993.
[4] M. Flickner, H. Sawhney, W. Niblack, J. Ashley, Q. Huang Query by image and
video content: the QBIC system, IEEE Computer, vol 28(9), pp. 23-32, 1995. ISSN:
0018-9162.
[5] J. Bach, C. Fuller, A. Gupta, A. Hampapur, B. Horowitz, R. Humphrey, R. C. Jain,
C.-F. Shu, Virage image search engine: an open framework for image management, in
Proc. of Storage and Retrieval for Still Image and Video Databases, 1996. Proc. SPIE
2670, 76.
[6] J. Eakins, M. Graham, Content-based image retrieval, Technical Report. JTAP-
039, JISC Technology Application Program, 2000.
[7] A. Gupta, R. Jain, Visual information retrieval, in Proc. of Communications of the
ACM, vol. 40(5), pp. 70-79, 1997.
[8] J. Feder, Towards image content-based retrieval for the World-Wide Web, in Proc.
of ACM on Advanced Imaging, vol. 11(1), pp. 26-29, 1996.
[9] R.J. Smith, F.S. Chang, Querying by color regions using the VisualSEEk content-
based visual query system, in Proc. of Intelligent Multimedia Information Retrieval,
pp. 23-41, 1997.
[10] A.W. Smeurdels, M. Worring, S. Santini, A. Gupta, R. Jain, Content-based image
retrieval at the end of the early years, in IEEE Trans. Pattern Analysis Machine
Intelligence, vol. 22(12), pp. 13491380, 2000.
[11] I. Mironic, Sisteme de Cutare a Imaginilor dup Coninut, Raport de cercetare
nr.1, iunie 2011.
[12] G.P. Nguyen, M. Worring, Optimization of Interactive Visual-Similarity-Based
Search, in Proc. of ACM Transactions on Multimedia Computing, Communications
and Applications, vol. 4 (1), pp. 1-23, 2008.
[13] C. Vertan, M. Ciuc, C. Fernandez-Maloigne, V. Buzuloiu, Browsing Image
Databases by 2D Image Similarity Scatter Plots, in Proc. of System of Intelligence
Symposyum Communications, Bucureti, Romania, 5-7 Dec. 2002, Proceedings of
International Conference Communications, pp. 397402, 2002.
199
[14] J. B. Tenenbaum, V.D. Silva, J.C. Langford, A global geometric framework for
nonlinear dimensionality reduction, iScience(290) (5500), pp. 2319-2322, 2000.
[15] C. Faloutsos, K. I. D. Lin, FastMap: A fast algorithm for indexing, datamining and
visualization of traditional and multimedia datasets, in Proc. of ACM SIGMOD, vol.
24(2), pp. 163174, 1995.
[16] M. Steyvers, Multidimensional Scaling, in Macmillan Encyclopedia of Cognitive
Sciences, pp. 21-27, 2002.
[17] S. Roweis, L. Saul, Nonlinear dimensionality reduction by locally linear
embedding, in Science, vol. 290(5500), pp. 23232326, 2000.
[18] G. Hinton, S. Roweis, Stochastic neighbor embedding, in Proc. of Advances
Neural Information Processing Systems, vol. 15, pp. 833840, 2002.
[19] A. Oerlemans, S. M. Lew, RetrievalLab A programming tool for content based
retrieval, in Proc of ACM International Conference on Multimedia Retrieval,
ICMR, Trento, 2011.
[20] O. Rooij, M. Worring, J. J. van Wijk, MediaTable: Interactive Categorization of
Multimedia Collections, in IEEE Proc. of Computer Graphics and Applications, vol.
30(5), pp. 42-51, 2010.
[21] M. Nakazato, S. T. Huang, 3D MARS: Immersive virtual reality for content based
image retrieval, in Proc. of International Conference on Multimedia and Exposition
(ICME), pp. 45-48., Tokyo, 2001.
[22] K. Schoeffmann, L. Boeszoermenyi, Image and Video Browsing with a Cylindrical
3D Storyboard, in Proc.of ACM International Conference on Multimedia Retrieval
ICMR, Trento, 2011.
[23] E. Deza, M. M. Deza, Dictionary of Distances, Elsevier Science, 1st edition,
ISBN-13: 978-0-444-52087-6, 2006.
[24] P. Howarth, S. Ruger, Fractional distance measures for content-based image
retrieval, in Proc. of European Information Retreival Conferece ECIR , pp. 447-
456, 2005.
[25] M. Kokare, B. Chatterji, P. Biswas, Comparison of similarity metrics for texture
image retrieval, in Proc. of IEEE Conf. on Convergent Technologies, vol. 2, pp. 571-
575, 2003.
[26] D. Zhang, G. Lu, Evaluation of similarity measurement for image retrieval, in
Proc. of IEEE International Conference on Neural Networks Signal, pp. 928-931,
Nanjing, 2003.
[27] T. Ojala, M. Pietikainen, D. Harwood, Comparative study of texture measures with
classification based on feature distributions, in Proc. of the Pattern Recognition, vol.
29(1), pp. 51-59, 2002.
[28] J. Puzicha, T. Hofmann, J. M. Buhmann, Non-parametric similarity measures for
unsupervised texture segmentation and image retrieval, in Proc. of the IEEE
200
International Conference on Computer Vision and Pattern Recognition CVPR, pp.

27-272, San Juan, 1997.
[29] D. Zhang, G. Lu, Evaluation of similarity measurement for image retrieval, in
Proc. of IEEE International Conference on Neural Networks Signal, pp. 928-931,
Nanjing, 2003.
[30] Y. Rubner, C. Tomasi, L. J. Guibas, The earth mover's distance as a metric for
image retrieval, in International Journal of Computer Vision IJCV, vol. 40(2), pp.
99-121, 2004.
[31] H. Alt, B. Behrends, J., Blomer, Approximate matching of polygonal shapes, in
Annals of Mathematics and Artificial Intelligence, pp. 251265, 1995.
[32] R. C. Veltkamp, Shape matching : Similarity measures and algorithms, Technical
Report UU-CS-2001-03, Universiteit Utrecht, 2001.
[33] F. R. Hampel, E. M. Ronchetti, P. J. Rousseeuw, W. A. Stahel, Robust Statistics:
The Approach Based on Influence Functions, John Wiley Press , New York, 1986.
[34] A. K. Jain, K. Nandakumar, A. Ross, Score Normalization in Multimodal
Biometric Systems, in Elsevier Pattern Recognition Letters, pp 2270 - 2285, 2005.
[35] C. G. M. Snoek, M. Worring, A. W. M. Smeulders, Early Versus Late Fusion in
Semantic Video Analysis, in ACM International Conference on Multimedia (ACM
MM), pp. 399402, Singapore, 2005.
[36] G. Ratsch, O. Takashi Onoda, K-R. Muller, Soft margins for AdaBoost, in
Machine Learning Journal, vol. 42(3), pp. 287-320, 2001.
[37] J.R. Quinlan, Introduction of Decision Trees, in Machine Learning Journal, vol.
1(1), pp. 81-106, 1986.
[38] L. Breiman, Random forests, in Machine Learning Journal, vol. 45(1), pp. 532,
2001.
[39] M. Montague, J. A. Aslam, Condorcet fusion for improved retrieval, in Proc. of
the ACM International Conference on Information and Knowledge Management
(CIKM), pp. 538-548, 2002.
[40] N. Gunther, N. Beretta, A Benchmark for Image Retrieval using Distributed
Systems over the Internet, In Proc. SPIE Conference on Internet Imaging II, pp. 127-
131, San Jose, 2001.
[41] C. Leung, H. Ip, Benchmarking for Content-Based Visual Information Search, in
Journal of Advances in Visual Information Systems, pp. 442-456, 2000.
[42] H. Muller, W. Muller, D. M. Squire, S. Marchand-Maillet, T. Pun, Performance
Evaluation in Content-Based Image Retrieval: Overview and Proposals, in Pattern
Recognition Letters, vol. 22(5), pp. 593-601, 2001.
[43] C. Vertan, M. Ciuc, Tehnici fundamentale de Prelucrarea i Analiza Imaginilor,
Ed. Matrix Rom, Bucuresti, ISBN 978-973-755-207-5, 2007.
[44] wikipedia. http://en.wikipedia.org/wiki/Receiver_operating_characteristic.
201
[45] S. Schmiedeke, C. Kofler, I. Ferran, Overview of MediaEval 2012 Genre Tagging

Task, in Working Notes Proc. of the MediaEval 2012 Workshop, pp. 4-5, Pisa.
[46] C. H. Demarty, C. Penet, G. Gravier, M. Soleymani, The MediaEval 2012 Aect
Task: Violent Scenes Detection in Hollywood Movies, in Working Notes Proc. of the
MediaEval 2012 Workshop, Pisa, 2012 .
[47] B. S. Manjunath, J.R. Ohm, V. V. Vasudevan, A. Yamada, Color and texture
descriptors, in IEEE Transactions on Circuits and Systems for Video Technology,
vol. 11 (6), pp. 703-715, 2001.
[48] J. Van de Weijer, C. Schmid, J. Verbeek, D. Larlus, Learning color names for real-
world applications, in IEEE Trans. on Image Processing, vol. 18(7), pp. 1512-1523,
2009.
[49] M. Swain, D. Ballard, Color Indexing, in International Journal of Computer
Vision IJCV, vol. 7(1):, pp. 11-32, 1991.
[50] M. Stricker, M. Orengo, Similarity of color images, in SPIE Conf. on Storage
and Retrieval for Image and Video Databases, vol. 2420, pp. 381-392, 1995.
[51] G. Pass, R, Zabih, Histogram renement for content based image retrieval, in IEEE
Workshop on Applications of Computer Vision, pp. 96-102, 1996.
[52] K. Konstantinidis, A. Gasteratos, I. Andreadis, Image retrieval based on fuzzy color
histogram processing, in Optics Communications, vol. 248, pp. 375386, 2005.
[53] J. Han, K.K. Ma, Fuzzy colour histogram and its use in color image retrieval, in
IEEE Trans. Image Process., vol. 11 (8), pp. 944952, 2002.
[54] M. Stricker, A. Dimai, Color Indexing with Weak Spatial Constraints, in Proc.
SPIE Storage and Retrieval for Image and Video Databases, pp. 29-40, 1996.
[55] S. Lazebnik, C. Schmid, J. Ponce, Beyond Bags of Features: Spatial Pyramid
Matching for Recognizing Natural Scene Categories, in IEEE Conference on
Computer Vision and Pattern Recognition (CVPR), vol. 2, pp. 2169-2178, 2006.
[56] H. Tamura, S. Mori, T. Yamawaki, Texture features corresponding to visual
perception, in IEEE Trans. Systems Man Cybernetics, vol. 8 (6), pp. 460473, 1978.
[57] R.M. Haralick, K. Shanmugan, I. Dinstein, Textural Features for Image
Classification, in IEEE Transactions on Systems, Man and Cybernetics, pp. 610-21,
1973.
[58] C. A. Bouman, K. Sauer, S. Saquib, Random fields and stochastic image models,
IEEE International Conference on Image Processing, pp. 621-625, 1995.
[59] J. Huang, S. R. Kumar, M. Mitra, W. J. Zhu, R. Zabih, Image indexing using color
correlograms, in Proc. IEEE Int. Conf. Computer Vision and Pattern Recognition,
pp. 762-768, 1997.
[60] RM. M. Galloway, Texture Analysis Using Gray Level Run Lengths, in IEEE
Proc. on Computer Graphics and Image Processing, vol. 4, pp. 172 - 179, 1975.
[61] D. Zhang, G. Lu, Content-based image retrieval using Gabor texture features, in
Proc. of IEEE Pacific Conference on Multimedia (PCM), pp. 21-29, USA, 2001.
202
[62] T. Ojala, M. Pietikainen, T. Menp, Multiresolution gray-scale and rotation

invariant texture classification with Local Binary Patterns, in IEEE Transactions on
Pattern Analysis and Machine Intelligence, vol. 24(7), pp. 971-987, 2002.
[63] T. Ahonen, A. Hadid, M. Pietikinen, Face recognition with local binary patterns,
in European Conference of Computer Vision ECCV, pp. 469-481, 2004.
[64] M. Heikkil, P. Matti, C. Schmid, Description of interest regions with local binary
patterns, in Pattern Recognition Letters, vol. 42(3), pp. 425-436, 2009.
[65] M. K. Hu, Visual Pattern Recognition by Moment Invariants, in Trans. of
Information Theory, vol. 8, pp. 179-187, 1962.
[66] M. R. Teague, Image analysis via the general theory of moments, in Journal Opt.
Soc. Am, vol. 70(8), pp. 920-930, 1980.
[67] A. Khotanzad, Y.H. Hong, Invariant Image Recognition by Zernike Moments, in
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 12, no. 5, pp.
489-497, 1990.
[68] R. Chellappa, R. Bagdazian, Fourier Coding of Image Boundaries, in IEEE
Transactions on Pattern Analysis and Machine Intelligence PAMI, vol. 6, pp. 102-
105, 1984.
[69] A. Bengtsson, J. Eklundth, Shape representation by multiscale contour
approximation, in IEEE Trans. Pattern Analysis and Machine Intelligence, vol.
13(1), pp. 85-93, 1991.
[70] L. J. Latecki, R. Lakamper, Shape similarity measure based on correspondence of
visual parts, in IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, pp.
11851190, 2000.
[71] N. Triggs, B. Dalal, Histograms of Oriented Gradients for Human Detection, in
Proc. IEEE Conf. Computer Vision and Pattern Recognition, vol. 2, pp. 886-893,
2005.
[72] G. Bosch, O. Zisserman, G. Munoz, Image classification using ROIs and multiple
kernel learning, in IEEE Conference of Computer Vision ICCV , pp. 771-778, 2007.
[73] N. Buch, J. Orwell, S. Velastin, 3D extended histogram of oriented gradients
(3DHOG) for classification of road users in urban scenes, in ACM Conf. of British
Machine Vision Conference, pp. 122-128, London, 2009.
[74] M. Lowe, D. G. Muja, Fast approximate nearest neighbors with automatic
algorithm configuration, in Int. Conf. on Computer Vision Theory and Applications
VISSAPP, pp. 331-340, 2009.
[75] D. Lowe, Distinctive image features from scale-invariant keypoints, cascade
filtering approach, in Journal of Computer Vision, vol. 60(2), pp. 91-110, 2004.
[76] Y. Ke, R. Sukthankar, PCA-SIFT: A more distinctive representation for local image
descriptors, in Proc. of Computer Vision and Pattern Recognition CVPR, vol. 2, pp.
506513, 2004.
203
[77] K. Mikolajczyk, C. Schmid, A performance evaluation of local descriptors, in

Pattern Analysis and Machine Intelligence Journal, IEEE Transactions, pp. 1615-
1630, 2005.
[78] H. Bay, A. Ess, T. Tuytelaars, L. van Gool, Surf: Speeded up robust features, in
Conf. of Computer Vision and Image Understanding CVIU, vol. 110(3), pp. 346-359,
2005.
[79] C. Stephens, M. J. Harris, A combined corner and edge detector, in Conf. of
Vision, vol. 15, pp. 147152, 1988.
[80] M. Donoser, H. Bischof, Efficient Maximally Stable Extremal Region (MSER), in
Conf. of Computer Vision and Pattern Recognition (CVPR), vol. 1, pp. 553-560,
2006.
[81] M. Agrawal, K. Konolige, M. R. Blas, CenSurE: Center Surround Extremas for
Realtime Feature Detection and Matching, in European Conference on Computer
Vision ECCV, vol. 53(5), pp. 102-115, 2008.
[82] E. Rosten, T. Drummond, Machine learning for high-speed corner detection, in
European Conference on Computer Vision ECCV, pp. 430-443, 2006.
[83] J. Shi, C. Tomasi, Good Features to Track, in IEEE Conference on Computer
Vision and Pattern Recognition CVPR, pp. 593 - 600, 1998.
[84] S. M. Smith, J. M. Brady, SUSAN - a new approach to low level image
processing, in International Journal of Computer Vision IJCV, vol. 23 (1), pp. 45
78, 1997.
[85] K. Youngjoong, A study of term weighting schemes using class information for
text classification, in Proc. of ACM SIGIR Conf. on Research and Development in
Information Retrieval, pp. 1029-1031, 2012.
[86] G. Csurka, C. Dance, L. Fan, J. Willamowski, C. Bray, Visual categorization with
bags of keypoints, in ECCV Workshop on Statistical Learning in Computer Vision,
pp. 22-30, 2004.
[87] Y. Liu, W. L. Zhao, C. W. Ngo, C. S. Xu, H. Q. Lu, Coherent bag-of audio words
model for efficient large-scale video copy detection, in Proc. of the ACM Int.
Conference on Image and Video Retrieval, pp. 89-96, 2010. .
[88] H. Wang, A. Klaser, C. Schmid, C. L. Liu, Action recognition by dense
trajectories, in IEEE Conference on Computer Vision and Pattern Recognition
CVPR, pp. 3169-3176, 2011.
[89] S. Lazebnick, C Schmit, Beyound Bag of features: Spatial Pyramid for recognising
natural scene categories, in IEEE Computer Vision and Pattern Recognition
Computer Society Conference, vol. 2, pp. 2169-2178, 2006.
[90] A. Zisserman, J. Sivic, Term weighting aproaces to object matching in videos, in
IEEE Computer Vision and Pattern Recognition Computer Society Conference, pp.
1470-1477, 2003.
204
[91] W. Zhao, W. G. Jiang, Keyframe retrieval by keypoints: Can point to point

matching help, in Conf. of Image and Video Retrieval, pp. 72-81, Springer Berlin
Heidelberg, 2006.
[92] T. Hoffman, Probabilistic Latent Semantic Analysis, in Proc. of Uncertainty in
Artificial Intelligence, pp. 289-296, 1999.
[93] J. Sivic, B. Russell, A. Efros, A. Zisserman, W. Freeman, Discovering objects and
their location in images, in Proc. of International Conference on Computer Vision,
vol. 1, pp. 370-377, 2005.
[94] A. Blei, A. Ng, M. Jordan, Latent Dirichlet allocation, in Journal of Machine
Learning Research, vol. 3(4), pp. 9931022, 2003.
[95] L. Li-Jia, L. Fei-Fei, What, where and who? classifying events by scene and object
recognition, in Int. Conf. of Computer Vision, pp. 221-228, 2007. .
[96] S. Savarese, J. Winn, A. Criminisi, Discriminative Object Class Models of
Appearance and Shape by Correlatons, in Proc. of IEEE Computer Vision and
Pattern Recognition, pp. 2033-2040, 2006.
[97] E. Sudderth, A. Torralba, W. Freeman, A. Willsky, Learning Hierarchical Models
of Scenes, Objects, and Parts in Proc. of International Conference on Computer
Vision ICCV , vol. 2, pp. 1331-1338, 2005.
[98] E. Sudderth, A. Torralba, W. Freeman, A. Willsky, Describing Visual Scenes using
Transformed Dirichlet Processes, in Proc. of Neural Information Processing Systems,
vol 18, pp. 1297-1307, 2006.
[99] F. Perronnin, J. Snchez, T. Mensink, Improving the Fisher kernel for large-scale
image classification, in Int. Conf. of Computer Vision ECCV, pp. 143-156, 2010.
[100] J. RR. Uijlings, A. WM. Smeulders, R. J. H. Scha, Real-time Bag of Words,
approximately, in Proc. of the ACM International Conf. on Image and Video
Retrieval, 2009.
[101] J. Ricard, D. Coeurjolly, A. Baskurt, Generalization of Angular Radial
Transform, in Int. Conf. on Image Processing ICIP, vol. 4, pp. 2211-2214, 2004.
[102] A. P. Witkin, Scale space filtering, in Int. Joint Conference on Artificial
Intelligence, pp. 10191022, 1983.
[103] F. Mokhtarian, A. Mackworth, Scale based description and recognition of planar
curves and two-dimensional shapes, in IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 8(2), pp.112124, 1986.
[104] B. Lucas, T. Kanade, An iterative image registration technique with an application
to stereo vision, in Proc. of Imaging Understanding Workshop, pp. 121-130, 1981.
[105] I. Laptev, On space-time interest points, in Int. Journal of Computer Vision,
vol. 64(2), pp. 107-123, 2005.
[106] B. Ionescu, Analiza si Prelucrarea Secventelor Video: Indexarea Automata dupa
Continut, in Publishing House Editura Tehnic Bucureti, ISBN 978-973-31-2354-5,
2009.
205
[107] I. Laptev, M. Marszalek, C. Schmid, B. Rozenfeld, Learning realistic human

actions from movies, in IEEE Conf. on Computer Vision and Pattern Recognition,
CVPR, 2008.
[108] K. K. Reddy, M. Shah, Recognizing 50 human action categories of web videos,
in Proc. of Machine Vision and Applications MVAP, vol. 24(118), pp. 1988-2013,
2012.
[109] I. Everts, J. van Gemert, T. Gevers, Evaluation of color stips for human action
recognition, in Int. Conf. on Computer Vision and Pattern Recogntion CVPR, 2013.
[110] Y. Yang, D. Ramanan, Articulated pose estimation with flexible mixtures-of-
parts, in IEEE Conference on Computer Vision and Pattern Recognition CVPR, pp.
pp. 1385-1392, 2011.
[111] E. Scheirer, M.Slaney, Construction and evaluation of a robust multifeature
speech/music discriminator, in IEEE Int. Conf. on Acoustics, Speech and Signal
Processing (ICASSP), pp. 1331-1334, 1997.
[112] S. B. Davis, P. Mermelstein, Comparison of parametric representations for
monosyllabic word recognition in continuously spoken sentences, in IEEE
Transactions on Acoustics, Speech and Signal Processing, vol. 28(4), pp. 357366,
1980.
[113] J. T. Foote, Content-based retrieval of music and audio, in Proc. of Multimedia
Storage and Archiving Systems, vol. 32(29), pp 138147, 1997.
[114] G. Tzanetakis, P. Cook, Musical genre classification of audio signals, in IEEE
Transactions Speech and Audio Processing, vol. 10(5), pp. 293-302, 2002.
[115] B. C. J. Moore, Interference effects and phase sensitivity in hearing, in
Philosophical Transactions, vol. 360(1794), pp. 83358, 2002.
[116] S. S. Stevens, J. Volkmann, E. B. Newman, A scale for the measurement of the
psychological magnitude pitch, in Journal of the Acoustical Society of America, vol.
8(3), pp. 185190, 1997.
[117] H. Fastl, E. Zwicker, Psychoacoustics: Facts and Models, in Springer-Verlag
Berlin Heidelberg, vol 22, 2007.
[118] B. Ionescu, J. Schlter, I. Mironica, M. Schedl, A Naive Mid-level Concept-based
Fusion Approach to Violence Detection in Hollywood Movies, in ACM International
Conference on Multimedia Retrieval - ICMR, 2013, Dallas, USA, 2013.
[119] B. Ionescu, I. Mironica, K. Seyerlehner, P. Knees, J. Schlter, M. Schedl, H. Cucu,
A. Buzo, P. Lambert, ARF @ MediaEval 2012: Multimodal Video Classification in
Mediaeval Benchmarking Initiative for Multimedia Evaluation workshop, Pisa,
2012 .
[120] B. Ionescu, K. Seyerlehner, I. Mironic, C. Vertan, P. Lambert, An Audio-Visual
Approach to Web Video Categorization, in Multimedia Tools and Applications, pp. 1-
26, DOI 0.1007/s11042-012-1097-x 2012, 2012.
206
[121] E. Pampalk, A. Flexer, G. Widmer, Improvements of audio-based music similarity

and genre classification, in International Symposium on Music Information
Retrieval ISMIR, vol. 5, 2005.
[122] M.F. Porter, An algorithm for suffix stripping, in Program: Electronic Library
and Information Systems, vol. 14(3), pp. 130137, 1980.
[123] G. Salton, C. Buckley, Term-weighting approaches in automatic texture retrieval,
in Proc. of Information Processing and Management, vol 24 (5), pp. 513-523, 1988. .
[124] J. X. Yu, X. Lin, H. Lu, Y. Zhang, A Comparative Study on Feature Weighting
Text Categorization, in APWeb Springer-Verlag Berlin Heidelberg, pp. 588597,
2004.
[125] K. Nigam, J. Lafferty, A. McCallum, Using maximum entropy for text
classification, in Proc. of the Workshop on Information Filtering, IJCAI, pp. 58-65,
1999.
[126] F. Sebastiani, Machine learning in automated text categorization, in ACM
Computing Surveys (CSUR), vol. 34(1), pp. 1-47, 2002.
[127] A. McCallum, K. Nigam, A comparison of event models for Naive Bayes text
classification, on Workshop on Learning for Text Categorization, AAAI 1998, vol.
752, pp. 41-48, 1998.
[128] I. Mironic, B. Ionescu, P. Knees, P. Lambert, An In-Depth Evaluation of
Multimodal Video Genre Categorization, in ACM/IEEE International Workshop on
Content-Based Multimedia Indexing, 2013.
[129] Y. Rui, T. Huang, S.-F. Chang, Image retrieval: Current techniques, promising
directions and open issues, in Journal of Visual Communication and Image
Representation, vol. 10(1), pp. 39-62, 1999.
[130] B. Yates, R. Neto, Modern Information Retrieval, New York.: ACM Press, vol.
463, 1999.
[131] R. Yan, A. G. Hauptmann, R. Jin, Negative pseudo-relevance feedback in content-
based video retrieval, in Proc. of ACM International Conference on Multimedia, vol.
41(4), pp. 288-297, 2006.
[132] S. Yu, D. Cai, J. R. Wen, W. Y. Ma, Improving pseudo-relevance feedback in web
information retrieval using web page segmentation, in Proc. of the Int. Conf. on World
Wide Web, pp. 11-18, 2003.
[133] D.M. Nichols, Implicit ratings and filtering, in Proc. of the DELOS Workshop
on Filtering and Collaborative Filtering, pp. 31-36, 1997.
[134] www.DirectHit.com. DirectHit
[135] D. Kelly, J. Teevan, Implicit feedback for inferring user preference: a
bibliography, in Int. Conf. on Research and Development in Information Retrieval
(SIGIR), vol 37(2), pp. 18-28, 2003.
207
[136] M. Verleysen, D. Franois, The curse of dimensionality in data mining and time
series prediction, in Computational Intelligence and Bioinspired Systems, pp. 85-
125, 2005.
[137] X. S. Zhou, T. S. Huang, Relevance feedback in image retrieval: A comprehensive
review, in Multimedia Systems, vol. 8(6), pp. 536-544, 2003.
[138] J. Han, N. King, Li Mingjing, H.-J. Zhang, A Memory Learning Framework for
Effective Image Retrieval, in IEEE Trans. on Image Processing, vol. 14(4), pp. 511-
524, 2005.
[139] J. Rocchio, Relevance Feedback in Information Retrieval, in The Smart
Retrieval System Experiments in Automatic Document Processing, Prentice Hall,
Englewood Cliffs NJ, pp. 313-323, 1971.
[140] Y. Lu, C. Hu, X. Zhu, H. Zhang, Q. Yang, A unified framework for semantics and
feature based relevance feedback in image retrieval systems, in Proc. of the ACM
Multimedia International Conference, pp. 31-37, 2000.
[141] Y. Ishikawa, R. Subramanya, C. Faloutsos, Mindreader: Query databases through
multiple examples, in Proc. of the Int. Conf. on Very Large Databases VLDB, 1998.
[142] D. J. Harper, C. J. Van Rijsbergen, An evaluation of feedback in document
retrieval using co-occurrence data, in Journal of Documentation, vol. 34(3), pp. 189-
216, 1978.
[143] Y. Rui, T. S. Huang, M. Ortega, S. Mehrotra, Relevance feedback: A power tool
for interactive content-based image retrieval, in IEEE Trans. Circuits and Systems for
Video Technology, vol. 8(5), pp. 644-655, 1998.
[144] C. Dorai, S. Venkatesh, Bridging the Semantic Gap with Computational Media
Aesthetics, in ACM Multimedia, vol. 10(2), pp. 15-17, 2003.
[145] H. Zhang, The optimality of Naive Bayes, AAAI Press, vol 1(2), 2004. .
[146] I.J. Cox, M. Miller, T. P. Minka, T. Papathomas, P. Yianilos, The Bayesian image
retrieval system, PicHunter: theory, implementation, and psychophysical experiments, i
IEEE Trans Image Processing, vol. 9(1), pp. 2037, 2000.
[147] R. Zhang, R.M., Zhang, BALAS: Empirical Bayesian learning in the relevance
feedback for image retrieval, in Journal of Image and Vision Computing, vol. 24(3),
pp. 211-223, 2006.
[148] V. N. Vapnik, Statistical Learning Theory, in New York: John Wiley & Sons,
1998.
[149] D. Tao, X. Tang, X. Li, X. Wu, Asymmetric bagging and random subspace for
support vector machines-based relevance feedback in image retrieval, in IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 28(7), pp. 1088-
1099, 2006.
[150] Y. Chen, X. S. Zhou, T. S. Huang, One-class SVM for learning in image
retrieval: in Int. Conference on Image Processing, vol. 1, pp. 34-37, 2001.
208
[151] J. v. Neumann, Theory of Self-Reproducing Automata, on University of Illiniois

Press, Campaign IL, 1966.
[152] S. Wolfram, A New Kind of Science, Wolfram Media, 2002.
[153] J. R. Weimar, Three-dimensional Cellular Automata for Reaction-Diffusion
Systems, in Journal of Fundamental Informatics, vol. 52, pp 275-282, 2002.
[154] M. Ruth, B. Hannon, Game of Life, in Modeling Dynamic Biological Systems,
Springer New York, pp. 333-356, 1997.
[155] N. Gilbert, K. Troitzsch, Simulation for the social scientist, on Open University
press, 2005, ISBN 9789812381835.
[156] I. Mironic, R. Dogaru, A novel feature-extraction algorithm for efficient
classification of texture images, n Scientific Bulletin of UPB, Seria C - Electrical
Engineering, vol 75(2), pp. 101-114, ISSN 2286 3540, 2013.
[157] R. Dogaru, M. Glesner, Novel tools and methods for fast identification of
emergent behaviors in CNNs with relevance to biological modeling in IEEE Proc. of
Cellular Neural Networks and their Applications, pp. 339-345, 2004.
[158] http://vismod.media.mit.edu/vismod/imagery/VisionTexture. Vistex dataset.
[159] H. Shahera, S. Serikawa Texture Databases - A Comprehensive Survey, Pattern
Recognition Letters, 2013.
[160] S. Lazebnik, C. Schmid, J. Ponce. A Sparse Texture Representation Using Local
Affine Regions, in IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 27, no. 8, pp. 1265-1278, 2005.
[161] P. Brodatz, Textures: A Photographic Album for Artists and Designers, in Dover,
vol 6, New York, 1966.
[162] B. Caputo, M. Frits, E. Hayman, J.O. Eklundh, The kth-tips database, online la
http://www.nada.kth.se/cvap/databases/kth-tips, 2004.
[163] K. Beyer, J. Goldstein, R. Ramakrishnan, Uri Shaft, When Is Nearest Neighbor
Meaningful? in Database Theory ICDT Lecture Notes in Computer Science ICDT,
vol. 1540, pp. 217-235, 1999.
[164] J. H. Friedman, Stochastic gradient boosting, in Proc of. Computational
Statistics & Data Analysis, vol. 38(4), pp. 367-378, 2002.
[165] P. Geurts, D. Ernst, L. Wehenkel, Extremely randomized trees, in Journal of
Machine Learning, vol 63(1), pp. 342, 2006.
[166] T. S. Jaakkola, D. Haussler, Exploiting generative models in discriminative
classifiers, in Advances in Neural Information Processing Systems, Bradford Books,
The MIT Press, Cambridge, MA, pp.487493, 1999.
[167] T. Jaakkola, D. Haussler, Probabilistic kernel regression models, in Proc. of
Artificial Intelligece and Statistics, vol 126, pp. 116-120, 1999.
[168] P. J. Moreno, R. Rifkin, Using the Fisher kernel method for Web audio
classification, in IEEE International Conference on Acoustics, Speech, and Signal
Processing Proceedings ICASSP, vol. 4, pp.24172420, 2000.
209
[169] A. Vinokourov, M. Girolami Document classification employing the Fisher kernel

derived from probabilistic hierarchic corpus representations, in Proc. European
Colloquium on Information Retrieval Research ECIR, pp.2440., 2001.
[170] V. Wan, S. Renals, Evaluation of kernel methods for speaker verification and
identification, in IEEE International Conference on Acoustics, Speech, and Signal
Processing Proceedings ICASSP, vol. 1, pp.669672, 2001.
[171] J. Zhang, M. Marszalek, S. Lazebnik, C. Schmid, Local features and kernels for
classification of texture and object categories: An in-depth study, in Int. Journal of
Computer Vision, vol. 73(2), pp. 213-238, 2005.
[172] A. Holub, M. Welling, P. Perona, Combining generative models and Fisher
kernels for object recognition. in Int. Conference of Computer Vision ICCV, vol. 1,
pp. 136-143, 2005.
[173] F. Perronnin, C. Dance, Fisher kernels on visual vocabularies for image
categorization. in Computer Vision and Pattern Recognition CVPR, pp. 71-78, 2007.
[174] F. Perronnin, Y. Liu, J. Snchez, H. Poirier, Large-scale image retrieval with
compressed Fisher vectors, in Computer Vision and Pattern Recognition CVPR, pp.
3384-3391, 2010.
[175] B.Mathieu, S.Essid, T.Fillon, J.Prado, G.Richard, YAAFE, an Easy to Use and
Efficient Audio Feature Extraction Software, in International Society for Music
Information Retrieval Conference, ISMIR, 2010.
[176] P. Kelm, S. Schmiedeke, T. Sikora, Feature-based video key frame extraction for
low quality video, in Proc. of Image Analysis for Multimedia Interactive Services
WIAMIS, pp. 25-28, 2009.
[177] T. Semela, M. Tapaswi, H. Ekenel, R. Stiefelhagen, Kit at mediaeval 2012 -
content-based genre classification with visual cues, in Mediaeval 2012 Workshop,
2012.
[178] B. Solmaz, S. M. Assari, M. Shah, Classifying web videos using a global video
descriptor, in Journal of Machine Vision and Applications, pp. 1-13, 2012.
[179] O. Kliper-Gross, Y. Gurovich, T. Hassner, L. Wolf, Motion interchange patterns
for action recognition in unconstrained videos in European Conference on Computer
Vision ECCV, pp. 155-163, 2012.
[180] R. Messing, C. Pal, H. Kautz, Activity recognition using the velocity histories of
tracked keypoints, in Int. Conference on Computer Vision ICCV, pp. 104-111, 2009.
[181] J. Wang, Z. Chen, Y. Wu, Action recognition with multiscale spatio-temporal
contexts, in Computer Vision and Pattern Recognition CVPR, pp. 3185-3192, 2011.
[182] Z. Lin, Z. Jiang, L. S. Davis, Recognizing actions by shape-motion prototype
trees, in Int. Conference of Computer Vision ICCV, pp. 444-451, 2009.
[183] R. Messing, C. Pal, H. Kautz, Activity recognition using the velocity histories of
tracked keypoints, in IEEE Int. Conference on Computer Vision, pp. 104-111, 2009.
210
[184] I. Mironic, C. Vertan, A Modified Feature Relevance Estimation Approach to

Relevance Feedback in Content-Based Image Retrieval Systems, in Signal Processing
and Applied Mathematics for Electronics and Communications SPAMEC, pp. 109-
113, 2011, Cluj-Napoca, Romania.
[185] I. Mironica, C. Vertan, An adaptive hierarchical clustering approach for relevance
feedback in content-based image retrieval systems, in Int. Sym. of Signals, Circuits
and Systems ISSCS, 2011.
[186] I. Mironic, B. Ionescu , C. Vertan, Hierarchical Clustering Relevance Feedback
for Content-Based Image Retrieval, in IEEE/ACM International Workshop on
Content-Based Multimedia Indexing CBMI, Annecy, 2012.
[187] I. Mironic, B. Ionescu, C. Vertan, The Influence of the Similarity Measure to
Relevance Feedback, in European Signal Processing Conference - EUSIPCO, 2012.
[188] I. Mironic, C. Vertan, B. Ionescu, A Relevance Feedback Approach to Video
Genre Retrieval, in International Conference on Intelligent Computer
Communication and Processing ICCP, Cluj-Napoca, Romania, 2011.
[189] I. Mironic, B. Ionescu, J. Uijlings, N. Sebe, Fisher Kernel based Relevance
Feedback for Multimodal Video Retrieval, in ACM International Conference on
Multimedia Retrieval - ICMR, pp. 65-72, ISBN: 978-1-4503-2033-7, Dallas, Texas,
USA, 2013 .
[190] W. J. Krzanowski. Principles of Multivariate Analysis: A User's Perspective,
Clarendon Press, Oxford, 1993.
[191] Microsoft Object Class Recognition dataset - http://research.microsoft.com/en-
us/projects/objectclassrecognition/.
[192] L. Fei-Fei, R. Fergus, P. Perona, Learning generative visual models from few
training examples: an incremental Bayesian approach in IEEE Conf. of Computer
Vision and Patter Recognition CVPR, Workshop on Generative-Model Based Vision,
pp. 178-188, 2004.
[193] S.H. Huang, Q.J Wu, S.H. Lu, Improved AdaBoost-based image retrieval with
relevance feedback via paired feature learning. in ACM Multimedia Systems, vol.
12(1), pp. 14-26, 2006.
[194] S.D. MacArthur, C.E. Brodley, C.-R. Shyu, Interactive Content-Based Image
Retrieval Using Relevance Feedback, in Computer Vision and Image Understanding,
vol. 12(1), pp. 14-26, 2002.
[195] Y. Wu, A. Zhang, Interactive pattern analysis for Relevance Feedback in
multimedia information retrieval, in ACM Journal on Multimedia Systems, vol 10(1),
pp. 41-55, 2004.
[196] G. Giacinto, A Nearest-Neighbor Approach to Relevance Feedback in Content-
Based Image Retrieval, in ACM Confenference on Image and Video Retrieval, pp.
456-463, 2007.
211
[197] S. Schmiedeke, C. Kofler, I. Ferran, Overview of MediaEval 2012 Genre Tagging

Task, in Working Notes Proc. of the MediaEval 2012 Workshop, 2012.
[198] C. Rasche, An Approach to the Parameterization of Structure for Fast
Categorization, in Int. Journal of Computer Vision, vol. 87(3), pp. 337-356, 2010.
[199] L. Lamel, J.-L. Gauvain, Speech Processing for Audio Indexing, in Int. Conf. on
Natural Language Processing, LNCS, 5221, pp. 4-15, Springer Verlag, 2008.
[200] I. Mironic, C. Vertan, D. C. Gheorghe, Automatic Pediatric Otitis Detection by
Classification of Global Image Features, in International Conference on e-Health and
Bioengineering EHB, 2011.
[201] I. Mironic, R. Dogaru, A comparison between various classification methods for
image classification stage in CBIR, in Int. Sym. of Signals, Circuits and Systems
ISSCS, pp. 301-304, (IEEE Catalog number CFP11816-PRT, ISBN 978-1-4577-0201-
3), 2011.
[202] I. Mironic, C. Vertan, Relevance feedback approaches for MPEG-7 content-
based biomedical image retrieval, in International Conference on Communications
COMM, pp. 185-188, IEEE Catalog Number: CFP1041J-ART, ISBN: 978-1-4244-6363-
3, 2010.
[203] I. Mironic, Sisteme de Relevance Feedback, Raport de cercetare nr. 2, iunie
2012.
[204] B. Ionescu, I. Mironica, K. Seyerlehner, P. Knees, J. Schlter, M. Schedl, H. Cucu,
A. Buzo, P. Lambert, ARF @ MediaEval 2012: Multimodal Video Classification, i
MediaEval Benchmarking Initiative for Multimedia Evaluation Workshop, Pisa,
Italia, 2012.
[205] I. Mironic, B. Ionescu, C. Rasche, P. Lambert, A Visual-Based Late-Fusion
Framework for Video Genre Classification, in IEEE International Symposium on
Signals, Circuits and Systems ISSCS, Iasi, Romania, 2013.
[206] Schlter, B. Ionescu, I. Mironica, M. Schedl, ARF @ MediaEval 2012: An
Uninformed Approach to Violence Detection in Hollywood Movies, in MediaEval
Benchmarking Initiative for Multimedia Evaluation Workshop Pisa, Italia, 4-5
octombrie, 2012.
[207] R. Vieriu, Ionut Mironica, B.-T. Goras, Background Invariant Static Hand Gesture
Recognition based on Hidden Markov Models, in IEEE International Symposium on
Signals, Circuits and Systems ISSCS, Iasi, Romania, 2013.
[208] C. Vertan, D. C. Gheorghe, B. Ionescu, Eardrum Color Content Analysis in
Video-Otoscopy Images for the Diagnosis Support of Pediatric Otitis, in International
Symposium on Signals Systems and Circuits ISSCS, pp. 129-132 , 2011.
[209] Y. Hirose, K. Yamashita, S. Hijiya, Back-propagation algorithm which varies the
number of hidden units, in Neural Networks, vol. 4(1), pp. 61-66, 1991.
[210] G. Ratsch, T. Onoda, K. R. Muller, Soft margins for AdaBoost, in IEEE Trans.
of Machine Jearning, vol. 42(3), pp. 287-320, 2001.
212
[211] D. Borth, J. Hees, M. Koch, A. Ulges, C. Schulze, An automatic web video

categorizer, in Proc. of ACM Multimedia, pp. 1111-1112, 2009.
[212] X. Yuan, W. Lai, T. Mei, X. S. Hua, X. Qing Wu, S. Li: Automatic video genre
categorization using hierarchical SVM, in IEEE International Conference on Image
Processing ICIP, pp. 2905-2908, 2006.
[213] Y. Song, Y.-D. Zhang, X. Zhang, J. Cao, J.-T. Li, Google challenge: Incremental-
learning for web video categorization on robust semantic feature space, in ACM
Multimedia, pp. 1113-1114, 2009.
[214] J. Wu, M. Worring, Efficient Genre-Specific Semantic Video Indexing, in IEEE
Transactions of Multimedia, vol 14 (2), pp. 291-302, 2012.
[215] L.-Q. Xu, Y. Li, Video classification using spatial-temporal features and PCA, in
International Conference on Multimedia and Expo, ICME, pp. 485-488, 2003.
[216] J.R.R. Uijlings, A.W.M. Smeulders, R.J.H. Scha: Real-Time Visual Concept
Classification, in IEEE Transactions on Multimedia, vol. 12(7), pp. 665-681, 2010.
[217] S. Schmiedeke, P. Kelm, T. Sikora, TUB @ MediaEval 2012 Tagging Task:
Feature Selection Methods for Bag-of-(visual)-Words Approaches, in Working Notes
Proc. of the MediaEval 2012 Workshop, 2012.
[218] T. Semela, M. Tapaswi, H. K.l Ekenel, R, Stiefelhagen, KIT at MediaEval 2012 -
Content-based Genre Classification with Visual Cues, in Working Notes Proc. of the
MediaEval 2012 Workshop, 2012.
[219] P. Xu, Y. Shi, M. Larson, TUD at MediaEval 2012 genre tagging task: Multi-
modality video categorization with one-vs-all classifiers, in Working Notes Proc. of
the MediaEval 2012 Workshop, 2012.
[220] Y. Shi, M. A. Larson, C. M. Jonker, MediaEval 2012 Tagging Task: Prediction
based on One Best List and Confusion Networks, in Working Notes Proc. of the
[221] J. Almeida, T. Salles, E. R. Martins, O. Penatti, R. Torres, M. Goncalves,
UNICAMP-UFMG at MediaEval 2012: Genre Tagging Task, in Working Notes Proc.
of the MediaEval 2012 Workshop, 2012.
[222] C.-H. Demarty, C. Penet, G. Gravier, M. Soleymani, The MediaEval 2012 Affect
Task: Violent Scenes Detection in Hollywood Movies, in Working Notes Proc. of the
[223] G. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, R. Salakhutdinov,
Improving Neural Networks by Preventing Co-Adaptation of Feature Detectors, at
arXiv.org, http://arxiv.org/abs/1207.0580, 2012.
[224] B. Ionescu, V. Buzuloiu, P. Lambert, D. Coquin, Improved Cut Detection for the
Segmentation of Animation Movies, in IEEE Int. Conf. on Acoustics, Speech, and
Signal Processing, vol 2, pp. II, 2006.
[225] Y.-G. Jiang, Q. Dai, C.C. Tan, X. Xue, C.-W. Ngo, The Shanghai-Hongkong
Team at MediaEval2012: Violent Scene Detection Using Trajectory-based Features, in
213
Proceedings Working Notes Proc. of the MediaEval 2012 Workshop, http://ceur-

ws.org/Vol-927/mediaeval2012_submission_28.pdf.
[226] C. Penet, C.-H. Demarty, M. Soleymani, G. Gravier, P. Gros,
Technicolor/INRIA/Imperial College London at the MediaEval 2012 Violent Scene
Detection Task, in Working Notes Proc. of the MediaEval 2012 Workshop,
http://ceur-ws.org/Vol-927/mediaeval2012_submission_26.pdf.
[227] F. Eyben, F. Weninger, N. Lehment, G. Rigoll, B. Schuller, Violent Scenes
Detection with Large, Brute-forced Acoustic and Visual Feature Sets, in Working
Notes Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-
927/mediaeval2012_submission_25.pdf.
[228] N. Derbas, F. Thollard, B. Safadi, G. Quenot, LIG at MediaEval 2012 Aect
Task: use of a Generic Method, in Working Notes Proc. of the MediaEval 2012
Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_39.pdf.
[229] E. Acar, S. Albayrak, DAI Lab at MediaEval 2012 Affect Task: The Detection of
Violent Scenes using Affective Features, in Working Notes Proc. of the MediaEval
2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_33.pdf.
[230] V. Martin, H. Glotin, S. Paris, X. Halkias, J.-M. Prevot, Violence Detection in
Video by Large Scale Multi-Scale Local Binary Pattern Dynamics, in Working Notes
Proc. of the MediaEval 2012 Workshop, http://ceur-ws.org/Vol-
927/mediaeval2012_submission_43.pdf.
[231] V. Lam, D.-D. Le, S.-P. Le, Shinichi Satoh, D.A. Duong, NII Japan at MediaEval
2012 Violent Scenes Detection Aect Task, in Working Notes Proc. of the MediaEval
2012 Workshop, http://ceur-ws.org/Vol-927/mediaeval2012_submission_21.pdf.
[232] R. Vieriu, Ionut Mironica, B.-T. Goras, Background Invariant Static Hand Gesture
Recognition based on Hidden Markov Models, in IEEE ISSCS -International
Symposium on Signals, Circuits and Systems, Iasi, Romania, 2013.
[233] R.Y. Wang, J. Popovic, Real-time Hand-Tracking with a Color Glove, in ACM
Trans. On Graphics, vol. 28(3), pp.63.1-63.8, 2009. .
[234] X. Zhang, X. Chen, Y. Li, V. Lantz, K. Wang, J. Yang, A Framework for Hand
Gesture Recognition Based on Accelerometer and EMG Sensors, in Trans. on Systems,
Man and Cybernetics, vol.41(6), pp.1064-1076, 2011. .
[235] A. Erol, G. Bebis, M. Nicolescu, R.D. Boyle, X. Twombly, Vision based hand
pose estimation: A review, in Computer Vision and Image Understanding, vol. 108,
pp.52-73, 2007.
[236] R.L. Vieriu, B. Gora, L. Gora, On HMM static hand gesture recognition, in Int.
Symp. on Signals, Circuits and Systems, pp.221-224, 2011.
[237] S. Oprisescu, C. Rasche, S. Bochao, Automatic static hand gesture recognition
using ToF cameras, in Proc. of European Signal Processing Conference EUSIPCO,
pp. 2748-2751, 2012.
214
[238] L. Yun, Z. Lifeng, Z. Shujun, A Hand Gesture Recognition Method Based on

Multi-Feature Fusion and Template Matching, in Proc. of Engineering, vol. 29, pp
1678-1684, 2012.
215

LucrareDoctorat IonutMironica LAPI ETTI 2013

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

LucrareDoctorat IonutMironica LAPI ETTI 2013

Încărcat de

Drepturi de autor:

Formate disponibile

.

UNIVERSITATEA POLITEHNICA din BUCURETI

COALA DOCTORAL ETTI-B

INTELLIGENT TECHNIQUES FOR MULTIMEDIA

Doctorand: Ing. Ionu Mironic

in s mulumesc n mod special domnului . l. dr. ing. Bogdan IONESCU

Doresc s mulumesc laboratorului LAPI - Laboratorul de Analiza i

FLOREA, erban OPRIESCU i Christoph RASCHE pentru ajutorul acordat,

A dori, de asemenea, s mulumesc domnilor dr. Klaus SEYERLEHNER, dr.

Fig. 3.22 Schema general a unui sistem de clasificare de text ................................... 82

LPC - Linear Predictive Coefficients

Lista tabelelor............................................................................................................. iii

ASPECTE TEORETICE ALE DOMENIULUI DE ANALIZ I CLASIFICARE A

1.1 Prezentarea domeniului tezei de doctorat .................................................................................. 3

1.2 Scopul tezei de doctorat ............................................................................................................. 7

1.3 Coninutul tezei de doctorat ....................................................................................................... 7

CONCEPTUL DE INDEXARE DUP CONINUT ......................................................... 11

2.1 Introducere ............................................................................................................................. 11

2.2 Domenii de aplicabilitate ........................................................................................................ 13

2.3 Problematica sistemelor de cutare dup coninut ................................................................. 14

2.4 Arhitectura unui sistem de indexare multimedia .................................................................... 17

2.5 Metode de fuzionare .............................................................................................................. 24

2.6 Msurarea performanelor ..................................................................................................... 31

2.7 Baze de date ........................................................................................................................... 35

2.8 Concluzii capitol ...................................................................................................................... 40

METODE CLASICE DE DESCRIERE A CONINUTULUI MULTIMEDIA............... 41

3.1 Descriptori de culoare .............................................................................................................. 41

3.2 Descriptori de textur ............................................................................................................. 50

3.3 Descriptori de form ............................................................................................................... 59

3.4 Puncte de interes ...................................................................................................................... 62

3.5 Descriptori MPEG 7 ................................................................................................................. 69

3.6 Descriptori de micare ............................................................................................................ 74

3.7 Descriptori audio .................................................................................................................... 76

3.8 Descriptori de text .................................................................................................................. 80

3.9 Concluzii ..................................................................................................................................... 84

ALGORITMI DE RELEVANCE FEEDBACK ................................................................... 87

4.1 Conceptul de Relevance Feedback .......................................................................................... 87

4.2 Metode de Relevance Feedback existente .............................................................................. 89

4.3 Concluzii ..................................................................................................................................... 97

CONTRIBUII PERSONALE ............................................................................................ 99

CAPITOLUL 5 ................................................................................................................... 101

DESCRIEREA CONINUTULUI DE TEXTUR FOLOSIND AUTOMATE

5.1 Teoria automatelor celulare .................................................................................................... 101

5.2 Descrirerea texturilor utiliznd automate celulare ................................................................. 103

5.3 Rezultate experimentale ....................................................................................................... 105

5.4 Concluzii ................................................................................................................................... 112

CAPITOLUL 6 ................................................................................................................... 113

DESCRIEREA CONINUTULUI FOLOSIND REPREZENTAREA FISHER KERNEL

6.1 Teoria Fisher kernel .............................................................................................................. 113

6.2 Reprezentarea Fisher kernel ................................................................................................. 114

6.3 Problematica modelrii timpului n filme ............................................................................. 116

6.4 Clasificarea automat dup gen a filmelor ............................................................................ 117

6.5 Recunoaterea de aciuni sportive ........................................................................................ 121

6.6 Recunoatere de aciuni cotidiene ........................................................................................ 124

6.7 Concluzii capitol .................................................................................................................... 127

CAPITOLUL 7 ................................................................................................................... 129

METODE DE RELEVANCE FEEDBACK PROPUSE .................................................. 129

7.2 Relevance feedback cu clusterizare ierarhic ........................................................................... 133

7.3 Aplicarea reprezentrii Fisher kernel n Relevance feedback ................................................... 149

7.4 Concluzii................................................................................................................................... 159

CAPITOLUL 8 ................................................................................................................... 161

PARTICULARIZAREA CONCEPTELOR PENTRU DIFERITE PROBLEME DE

8.1 Catalogarea imaginilor ORL ...................................................................................................... 162

8.2 Catalogarea imaginilor microscopice ........................................................................................ 166