Sunteți pe pagina 1din 29

Recunoaterea facial n subspaii

Imaginile de chipuri, pot fi reprezentate ca o matrice de pixeli de dimensiuni sporite,


aparinnd deseori unei varieti de mici dimensiuni. Cerceterea n domeniul recunoa teri faciale i
percepiei vizuale a computerului, n general, a prezentat un interes n creterea tehnicilor care au la
baz instrumente algebrice i statistice pentru extragerea si analiza acestora. n continuare vom
descrie tehnici aproximativ cronologice care identific, parameterize, i s analizeze subspaii liniare i
neliniare, de la tehnica de original Eigenfaces la metoda de Bayesian recent introduse pentru a analiza
similaritatea probabilistic. Vom discuta, de asemenea, evaluarea comparativ experimental a unora
dintre aceste tehnici, precum i chestiuni practice legate de aplicarea unor metode diferite pentru
subspaiu prezint, iluminare, i de expresie.

1 Zona facial i dimensionalitatea acesteia


Analiza pe calculator a imaginii feei se rezum la un semnal vizual (lumina reflectat de
suprafaa feei), care este nregistrat de un senzor digital ca o matrice de valori de pixeli. Pixelii pot
codifica numai culoarea sau intensitatea. Dup normalizarea adecvat i redimensionarea la mrime
fix m-pe-n, o matrice de pixeli poate fi reprezentat ca un punct (de exemplu, vector), intr-un spatiu de
imagine de dimensiunea mn, pur i simplu scrierea valori sale ntr-un pixel fix (de obicei raster). Un
aspect critic n analiza datelor multidimensionale este dimensionalitatea, numrul de coordonatele
necesare pentru a specifica un punct de date. Mai jos vom discuta despre factorii care afecteaz acest
numr, n cazul imaginilor de fee.

1.1 Spaiul Imaginii Versus Spaiul Feei

Pentru a specifica o imagine arbitrar n spaiul imagini, este nevoie de a specifica valoarea
fiecarui pixel. Astfel, dimensionalitatea "nominal" a spaiului, impus de reprezentare pixelului, este
mn, un numr mare chiar i pentru o imagine de dimensiuni modeste. Metode de recunoatere care
opereaz pe aceast reprezentare sufer de o serie de potenial dezavantaje ale dimensionalit i

Manipularea exemplelor de mare dimensiune, n special n contextul recunoaterii, similitudini


i potriviri de baz, este computational scump.

Pentru metodele parametrice, de obicei numrul de parametri creste exponential cu


dimensionalitatea. Adesea, acest numr este mult mai mare dect numrul de imagini disponibile
pentru antrenare, ceea ce face greoaie sarcina estimri n spaiul de imagine.

n mod similar, pentru metode neparametrice, complexitatea e antionului de exemple necesare


pentru date eficiente, este exagerat de mare.

Cu toate acestea, o mare parte din suprafaa fe ei este neteda i are o textur regulat. Prin
urmare, eantionul de pixeli este, foarte dens: Valoarea unui pixel este de obicei foarte corelat cu
valorile pixelilor din jur. n plus, aspectul de fee este foarte limitat, de exemplu, orice vizualizare
frontal a feei este aproximativ simetric, are ochi pe laturi, nas n mijloc, i aa mai departe. O mare
parte a punctelor din spaiul imagini feei nu reprezint un fizic posibil. Astfel, imaginile fe ei sunt
supuse unor constrngeri naturale de fapt limitate la un subspaiu denumit spaiul fe ei.

1.2 Varietatea spaiului i funcii de baz

Modelul comun pentru spaiul feei ce se regse te n principala varietate ( principal manifold)
este ncorporat n spaiul de imagine inalt-dimensional. Dimensionalitate sa intrinsec este
determinat de numrul de grade de libertate n spaiul fe ei; scopul analizei subspaiului este de a
stabili acest numr i pentru a extrage principalele moduri de analiz stuctural a variet ii spa iului
feei. Principalele moduri sunt calculate funcie de valorile pixelilor i menionate n continuare n
funciile de baz ale varietilor principale.

Concret pentru aceste concepte, se ia n considerare o linie dreapt R3 , trecnd prin

origine i paralel cu vectorul a = [a1 , a 2 , a3 ]T . Orice punct de pe linie poate fi descris prin trei

coordonate; cu toate acestea, subspaiul care const din toate punctele de pe linie are un singur grad de
libertate, cu principalul mod de translaie corespunztoare de-a lungul direciei a. n consecin,
x1 , x2 , x3 ) =
reprezentarea punctele n acest subspaiu necesit o singur funcie : (
3

aj xj . Analogie aici este ntre linia i spaiul feei, precum i ntre R


3
i spaiul imaginii.
j=1

n teorie, n conformitate cu modelul descris orice imagine de fa ar trebui s se regseasc n


spaiul feei. n practic, detorit senzorului de zgomot, semnalul are de obicei o component nenul n
afara spaiului feei. Aceasta produce incertitudine n model i necesit funciile multiple tehnice,
algebrice i statistice de baz capabile s extrag zgomotul din principala varietate a spa iului fe ei. n
seciunea 1.3 vom descrie pe scurt analiza componentelor principale, care joac un rol important n
multe dintre astfel de tehnici.

1.3 Analiza componentelor principale (PCA)

Analiza componentelor principale este o tehnic de reducere a dimensionalit ii bazat pe


extragerea numrului dorit de componente principale ale datelor multidimensionale. Prima
component principal este o combinaie liniar de dimensiunile originale care are variaia maxim;
componenta principal n este o combinaie liniar cu cea mai mare variaie, de form ortogonal cu
n1 prime componente principale.

Ideea de PCA este ilustrat n figura 7.1(a); axa evaluat


1 corespunde direciei de variaie

maxim i este ales ca prim component principal. ntr-un caz bidimensional a doua component
principal este determinat unic de restric iile ortogonale, ntr-un spaiu dimensional mai mare
procesul de selecie va continua, ghidat de variania proieciilor.
PCA este strns legat de transformata Karhunen-Love (KLT) care a fost derivat n

T
contextul de procesare a semnalului transformat ortogonal cu baza = [ 1 , , N ] , care pentru

orice k N minimizeaz eroarea medie de reconstrucie L2 pentru datele punctului x

n ipoteza c datele sunt n medie zero, formulele de PCA i KLT sunt identice.

Vectorii de baz n KLT pot fi calculai n felul urmtor. Fie X datele matricii N M ale cror

coloane
x 1 , x M sunt observaii unui semnal ncorporat n R
N
; n contextul recunoaterii feei,
M este numrul disponibil de imagini cu fee, i N = mn este numrul de pixeli din imagine. Valoarea
de baz transformatei KLT se obine prin rezolvarea problemei valorilor proprii (eigenvalue) =
T
, unde este matricea de covarian a datelor.


este matricea eigenvectorului
T
= [ 1 , , N ] , iar este diagonal matricii cu valorile

1 N ale eigenvectorului j
proprii de pe principalela sa diagonal, este
eigenvectorul corespunztor celei mai mari valorii proprii j. Apoi, acesta poate fi demonstrat c este

valoare proprie
i variaiei datelor proiectate pe i .

Astfel, pentru a efectua PCA i extragerea principalelor componentelor ale datelor k, n


k
proiectul datelor prima coloan k a transformatei baza KLT, trebuie s corespund cu cele mai
N K
mari valori proprii k ale lui . Acest lucru poate fi vzut ca o proiecie liniar R R ,
care reine energia maxim (de exemplu, variania) a semnalului. O alt proprietate important a PCA-

ului este prelucrarea datele n scopul reducerii zgomotului: matricea de covarian a Tk X este

ntotdeauna diagonal.

Proprietile principale ale PCA sunt rezumate n urmtoarele


i anume, reconstrucie aproximativ, orthonormal de baza
k , i procesul de autocorelare

respectivelor a componentelor principale y i=Ti x. Aceste proprieti sunt ilustrate n Figura 7.1, n

cazul n care PCA este de succes n gsirea variet ii principale, i n figura 7.8a, n cazul n care
aceasta este mai puin succes, datorit neliniaritii clare a variet ii principale.

PCA poate fi pus n aplicare prin descompunerea valoarii singulare (SVD). SVD-ul matricii
M x N unde X(M N) este dat de

unde M N este matricea U i N N este matricea V au coloane ortonormale, i N N este matricea


D are valorile singulare de X pe principala sa diagonal i zero n alt parte.

Fig. 7.1. Conceptul de PCA/ KLT. (a). linii continui, baz original; linii punctate, baza KLT. Punctele
sunt selectate n locaii distante regulate pe o linie dreapt rotit la 30 i apoi perturbate de zgomot
gaussian izotrop 2D. (b). Proiecie (reconstrucie 1D) a datelor folosind doar prima component
principal.

Se poate arta c U = , astfel descompunerea valorii singulare (SVD) permite un calcul


eficient i robust al PCA fr a fi nevoie s se estimeze datele matricii de covarian (ecua ia 2).
Atunci cnd numrul de exemple M este mult mai mic dect dimensiunea N, acesta este un avantaj
crucial.

1.4 Eigenspectrul i dimensionalitatea

O problem important n mare msur nerezolvat n reducerea dimensionalitate este alegerea


lui k, dimensionalitatea intrinsec a varietii principale. Derivarea analitic a acestui numr pentru un
semnal vizual complex natural nu este disponibil datelor. Pentru a simplifica aceast problem, este
normal s se presupun c n semnalul de zgomot este ncorporat i semnalul de interes (n cazul
nostru, un punct eantion din spaiul feei), ntr-un spaiu de nalt dimensionalitate, raportul semnal-
zgomot este ridicat. Statistic, aceasta nseamn c diversitatea datelor de-a lungul variet ii principale
este comparabil cu variaia n spaiul complementar.
Aceast presupunere se refer la eigenspectrum, un set de valori proprii ale datelor de
covarian a matrici . Valorea proprie i este egal cu variaia componentei principale i, astfel, un

algoritm rezonabil pentru detectarea k va cuta amplasarea descresctoare de-a lungul eigenspectrului

n cazul n care valoarea


i scade n mod semnificativ. Un eigenspectru tipic pentru o problem de

recunoaterea feei, i alegerea natural a k pentru un astfel de spectru, este prezentat n figura 7.3b.

n practic, alegerea lui k este, de asemenea, orientat de constrngerile de calcul, legate de


costul de ajustare al varietii principale extrase i de numrul de imagini disponibile ale feei.

2 Subspaii liniare
Poate c cel mai simplu caz de analiz a varietii principale apare n ipoteza c aceasta este
liniar. Originalul a fost translatat n fa medie (media imaginilor din baza de date), prin scderea
acestuia de la orice imagine, spaiul feei este un subspaiu liniar al spaiului imagini. n aceast
seciune vom descrie metode care funcioneaz n conformitate cu aceast presupunere i generalizarea
la o varietate multilinear.

Fig. 7.2. Eigenfaces: faa medie n stnga, urmat de apte eigenfaces de top.

2.1 Eigenfaces i tehnici aferente

n activitatea lor de cercetare n 1990 Kirby i Sirovich au propus utilizarea a PCA pentru
analiz i reprezentarea feei. Lucrarea lor a fost urmat de tehnica "eigenfaces" a lui Turk i Pentland
prima aplicaie folosind PCA pentru recunoaterea fe ei. Deoarece vectorii de baza constitui i de ctre
PCA au avut aceeai dimensiune ca imaginile de intrare cu fe e, ace tia au fost numiti "eigenfaces."
Figura 7.2 prezint un exemplu de fata medie, precum i cteva dintre eigenfaces-urile top. Fiecare
imagine de fa a fost reflectat (dup transformarea n fa medie) n subspaiul principal; coeficienii
de expansiune PCA au fost n medie pentru fiecare subiect, rezultnd o unic dimensiune k
reprezentnd acest subiect. Cnd o imagine de test a fost oglindit n subspaiul, distanele euclidiene
ntre coeficientul vectorului su i reprezintarea fiecarui subiect au fost calculate. n funcie de distana
fa de subiect, pentru care aceasta ar fi cea mai mic, i de eroarea de reconstrucie PCA (ecua ia 1),
imaginea a fost clasificat ca aparinnd uneia dintre subieci , ca o fa nou, sau ca o nonfa . Acest
din urm demonstraie are o dubl utilizare a tehnicilor de subspaiu pentru detecie: n cazul apariiei
unei clase de obiecte (de exemplu, fee) este modelat un subspaiu, distana euclidian de la acest
subspaiu poate servi pentru a clasifica un obiect ca membru sau nemembru al clasei.

2.2 Eigenspaces probabilistice


Rolul PCA n Eigenfaces-uri iniiale a fost n mare msur limitat la reducerea

dimensionalitii. Similitudinea ntre imaginile


I1 i
I2 a fost msurat n termeni normei

I1 I2
euclidiene a diferenei = oglindit n subspaiu, ignornd n esen, moduri de variaie
n subspaiul i n afara lui. Acest lucru a fost mbuntit n extinderea eigenfaces-ului propus de
Moghaddam i Pentland, care folosete o msur de similaritate probabilistic bazat pe o estimare
parametric a densitii de probabilitate p( | ).

O dificultate major cu astfel de estimare este c n mod normal nu sunt aproape date
suficiente pentru a estima parametrii de densitate ntr-un spaiu dimensional ridicat. Moghaddam i

Pentland au rezolvat aceast problem prin utilizarea PCA mpr ind spatiul vectorial RN n dou

k (primele k coloane
subspaii, aa cum se arat n Figura 7.3: principal subspaiu F, obinut prin

F
ale lui) i complementul ortogonal calibrat al coloanelor rmase ale lui . Aici presupunerea de
operare este faptul c datele au k dimensionalitate intrinsec (cel mult) i, astfel, se regsesc n F, cu

F
excepia a aditivului zgomot gaussian alb din cadrul . Fiecare imagine poate fi descompus n
dou componente ortogonale de proiecie n aceste dou spaii. Figura 7.3a arat descompunerea n
distan n spaiul feei (DIFS) i distana de la spaiul fe ei (DFFS).

N
Fig. 7.3. (a). Descompunerea lui R n subspaiul principal F sale i complementul ortogonal

F pentru o densitate Gaussian. (b). Spectrul de valori proprii tipice i mprirea acestora n cele
dou subspaii ortogonale.

Mai mult, densitatea de probabilitate poate fi descompus n dou componente ortogonale.

n cel mai simplu caz, P( | ) este o densitate Gaussian. Astfel cum rezult de la
Moghaddam i Pentland probabilitatea complet estimat n acest caz, poate fi scris ca produsul a dou
densiti marginale Gaussiane independente.
PF (|) este densitatea marginal adevrat n F; ^
PF ( | ; este densitatea
n cazul n care


F y i = Ti sunt componente principale ale , i ( ) este
marginal estimat n ;
PCA eroarea reconstrucie (ecuaia 1). Valoarea de informaii teoretice optime pentru densitatea
parametrul de zgomot este derivat prin divergena minimizri Kullback-Leibler (KL) i poate fi

dovedit a fi pur i simplu media a Nk cele mai mici valorile proprii.

Acesta este un caz special recent, mai general modelul de analiz factorial se nume te
probabilistica PCA (PPCA), propus de Tipping i Bishop. n formularea lor, expresia de mai sus
pentru este soluia de probabilitate maxim a unui model variabil latent, n contrast cu soluia
minimal divergent obinut de Moghaddam i Pentland.


F
n practic, cele mai multe dintre valorile proprii ale lui nu pot fi calculate datorit
datelor insuficiente, dar ele pot fi estimate, de exemplu, prin folosirea unei funcie neliniare de partea
disponibil a spectrului de valori proprii i estimarea medie a valorilor proprii dincolo de subspaiu

principal . Fractal legea spectrelor de putere de forma f n sunt considerate a fi fenomene tipic
"naturale" i sunt adesea o alegere bun pentru descompunerea natural a eigenspectrului, dup cum
este ilustrat de figura 7.3b.

n acest cadru probabilistic, recunoaterea unei imagini de test x se efectueaz n termeni de

calcul pentru fiecare exemplu din baza de date


x i diferena = x - x i i descompunerea sa n


F
componentele F i i apoi clasarea exemplelor n funcie de valoarea n ec. (6).

2.3 Discriminants Linear: Fisherfaces


Atunci cnd schimbrile substaniale n iluminare i expresie sunt prezente, o mare parte din
variaia de date se datoreaz aceste schimbri. Tehnicile de PCA selecteaz, n esen, un subspaiu
care pstreaz cele mai multe dintre variaie i n consecin similitudinea spaiului fe ei nu este
neaprat determinat de identitate.

Belhumeur et al. [2] propune s rezolve aceast problem cu "Fisherfaces", o aplica ie a


discriminantului liniar al lui Fisher (FLD). FLD selecteaz subspaiu liniar care maximizeaz
raportul

Unde

este difuzat ntre clasa matrice, i

este difuzat n clasa matricii, m este numrul de subieci (clase) n baza de date. Intuitiv, FLD gsete
proiecia de date n clasele sunt cele mai liniar separabile. Se poate arta c dimensiunea lui este la
cel mai m - l.

Deoarece, n practic
Sw este de obicei singular, algoritm Fisherfaces reduce n primul
rnd dimensionalitatea datelor cu PCA, astfel ecuaia (8) poate fi calculat i apoi se aplic FLD a
reducnd n continuare dimensionalitatea la m -1. Recunoaterea este apoi realizat de un clasificator
NN n acest subspaiu final. Experimenele raportate de Belhumeur et al. [2] au fost efectuate pe seturi
de date care conin imagini frontale de 5 persoane, cu variaii de iluminat drastice i un alt set cu fete
de 16 persoane cu diferite expresii i schimbri drastice de iluminare din nou. n toate experimentele
raportate Fisherfaces atinge o rat de eroare mai mic ca eigenfaces.
Fig. 7.4. Diagrame de flux de semnal pentru calculul similarit ii g ntre dou imagini. (a). Eigenfaces
original. (b). Similitudine Bayesian. Imaginea Diferena este oglindit prin ambele seturi de
(intra/extra) eigenfaces pentru a obine cele dou probabilit i.

2.4 Metode Bayesiane

Se ia n considerare acum un spatiu caracteristic al vectorilor , diferenele ntre dou imagini

(=
I j I k ). Se pot defini dou clase de imaginii faciale variate: variaie intrapersonal I

(corespunztoare, de exemplu, la diferite expresii faciale i iluminri ale aceluiai individ) i variaie
E
extrapersonal (corespunztoare variaiilor ntre persoane diferite). Msura similitudini S()
poate fi apoi exprimat n termeni de probabilitate a posteriori intrapersonal a , aparinnd lui
I i dat de regula Bayes.

Reinei c aceast formulare special Bayesian, propus de Moghaddam, exprim ac iunea

standard de recunoatere a feei printr-o problem de clasificare binar a e antionului cu


I i

E .
Densitile ambelor clase sunt modelate ca dimensiuni mari Gaussiane, folosind o metod
PCA de baz eficient descrise n seciunea 2.2.

Aceste densiti au media zero, deoarece pentru fiecare =


I j I i exist Ii I j .

Metodele PCA, Gaussians sunt cunoscute pentru dobndirea doar a unui subspaiu din zona
imaginii (spaiu feei); astfel, doar vectorii proprii de top ai densitilor gaussiene sunt relevan i pentru
modelare. Aceste densiti sunt utilizate pentru a evalua similaritatea n ecuaia. (9). Calculul
similitudinii implic scderea n primul rnd mic orarea imaginii de studiu I dintr-o baz de date de
I j . Rezultatul al imaginii este apoi proiectat pe vectorilor proprii extrapersonali
exemple
gaussieni i, de asemenea, pe vectorii proprii intrapersonali gaussiani. Exponentiale sunt calculate,
normalizate, i apoi combinate ca n ecuaia. (9). Aceast operaiune este reiterat pe toate exemplele
din baza de date, i exemplul care atinge punctajul maxim de siminitudine este considerat asemntor.
Pentru baze de date mari, astfel de evaluri sunt costisitoare i este de dorit s se simplifice prin
transformri off-line.

Pentru a calcula probabilitatea P ( |


I ) i P ( | E ) baza de date a imaginilor Ij

sunt preprocesate, cu transformri de albire. Fiecare imagine este convertit i stocate ca un set de doi
y y
coeficieni albii ai subspaiului: I pentru spaiu intrapersonal i E pentru spaiu
extrapersonal

X VX
unde i sunt matricile celor mai mari valorilor proprii i vectorii proprii, respectiv, ai

lui
X (X fiind un simbol nlocuit de I sau E).

Dup aceast preprocesare, evaluarea Gaussian poate fi redus la simple distanele euclidiene
ca n ecuaia (12). Numitorul fiind, desigur, precalculat. Aceste probabilita i sunt evaluate i folosite
pentru a calcula maxima posterioar (maximum a posteriori MAP) similitudinii S() n ecuaia (9).

Distanele euclidiene sunt calculate ntre vectori


k I -dimensionali y , precum i vectori k E -
I

y ( k E +k I ) operaii aritmetice sunt necesare pentru


dimensionali E . Astfel, aproximativ 2
fiecare calcul de similitudine, evitnd repetarea diferenierilor i proieciile imaginilor.
Probabilitatea maxim (maximum likelihood ML) de potrivire a similitudini este chiar simpl,
numai clasa intrapersonal este evaluat, conducnd la urmtoarea form modificat pentru msurtori
similare.

Abordarea descris mai sus necesit dou proiecii a vectorului diferen , din care
probabilitatea poate fi estimat pentru masura de asemanare Bayesian. Fluxul de calcul este ilustrat n
figura 7.4b. Etapele de proiecie sunt liniare n timp ce calculul posterior este neliniar. Datorit
proieciilor PCA duble, necesare, aceast abordare a fost numit o tehnic "dual eigenspace". Proiecia

vectorului diferen pe " dual eigenfaces " (


I i E ) este calculat posterior n ecuaia. (9).

Este remarcabil s comparm i s contrapunem LDA (Fisherfaces) i tehnica subspaiilor


duble prin evaluarea rolurilor similare din between-class/within-class i subspatiile
extrapersonale/intrapersonale. O astfel de analiz a fost prezentat de Wang i Tang n cazul n care
PCA, LDA, i metodele Bayesiane au fost "unificate" sub o metod a subspaiului cu trei parametri. n
cele din urm, justificarea optim probabilist a LDA este pentru cazul a dou structuri egale
gaussiene de covarian (LDA tinde spre performan destul de bine chiar i atunci cnd aceast
condiie nu este strict adevrat). n schimb, formularea dual este complet general i probabilistic
prin definiie, i nu face nici un apel la geometria Gaussien, sau simetria datelor care stau la baza sau,
n fapt, la cele dou "clase meta" (intra, i extrapersonal). Aceste dou structuri de probabilitate pot lua
orice form (de exemplu, modele amestecate arbitrar), nu doar unic Gaussian , dei acest din urm
caz se face pentru vizualizarea uoar prin diagonalizarea covarianelor duale sub forma a dou seturi
de "eigenfaces".
Fig. 7.5. Descompunere ICA vs PCA a unui set de date 3D. (a). PCA de bazel (ortogonal) i ICA
(non-ortogonal). (b). Stnga: proiecia de date pe partea de sus dou componente principale (PCA).
Dreapta: proiecia pe partea de sus dou componente independente (ICA).

2.5 Analiza componentelor independente i separarea surselor

n tim ce PCA minimizeaz eantion de covarian (dependen de ordinul al doilea) de date,


analiza componentelor independente (ICA) minimizeaz dependenele de ordin superior, de asemenea,
i componentele gasite de ICA sunt proiectate pentru a fi non-gaussian. Ca i PCA, ICA produce o

proiecie liniar RN R M , dar cu proprieti diferite

aceasta este, reconstrucia aproximativ, nonorthogonal a func iei A, i aproape factorizarea


distribuiei comune P (y) n structuri marginale ale componentelor independente (Ics) (non-gaussiane).

Un exemplu ICA de baz este prezentat n Figura 7.5, unde se calculeaz un set de puncte
3D. Subspaiu recuperat 2D de ctre ICA pare s reflecte distribuirea datelor mult mai bine dect
subspaiul obinut de PCA. Un alt exemplu ICA de baz este prezentat n figura 7.8b unde vedem doi
vectori nonorthogonali neordonai IC, dintre care unul este aproximativ aliniat cu primul vector
component principal n figura 7.8a, (de exemplu, direcia de variaie maxim ). Reinei c actuala
structur statistic independent non-Gaussian a exemplului prezent este minim i acesta este
succesul lui ICA n recuperarea modurilor principale de date.

Fig. 7.6. Imagini de baza obinute cu ICA: Arhitectura I (sus) i II (jos).

ICA este stns legat de problema separrune semnalelor surs (blind sourse separation)
descompunerea semnalului de intrare (imagine) x ntr-o combinaie liniar (amestec) a semnalelor din

surse independente. Se presupune c x T = A s T , cu A o matrice amestecat necunoscut.

Algoritmul ICA ncearc s gseasc matricea amestecat A sau matricea separat W ,astfel nct
T T T
u =W x = A s . Unde datele rezult din analiza lui M cu N variabile, intrarea lui ICA este
dispus ntr-o matrice X=NM.
Bartlett a investigat utilizarea procedurii ICA pentru recunoaterea feei n dou arhitecturi
fundamental diferite:

Arhitectura I Rndurile S sunt imagini independente de baza, care sunt combinate cu poten ialul
imaginilor de intrare X. nvarea W ne permite de a estima imaginile de baz n rndurile lui U. n
practic, datorit calculului uor, PCA este iniial utilizat la datele de intrare X pentru a gsi cele mai
bune K eigenfaces ; acestea sunt aranjate n coloanele unei matrici E. Apoi ICA se realizeaz pe
T
E , unde imaginile sunt variabile, i valorile pixelilor sunt observaii. Fie C o PCA matrice
T
coeficient, care este, X = C E . Apoi k imaginii independente de baz ICA (Fig. 7.6, sus) sunt
T 1
estimate pe rnduri de U = W E i coeficieni datelor calculate de X = E W U.

Arhitectura II Aceasta arhitectura presupune c sursele din S au coeficieni independeni, iar


coloanele combinate ale matricii A sunt imagini de baz, acestea sunt variabilele n problema separrii
surselor de pixeli. Similar cu Arhitectura I, ICA este precedat de PCA; cu toate acestea, intrarea lui
ICA este coeficientul matrici C. Rezultatul lui ICA de baz este format din coloane lui EA (Fig. 7.6,
T
jos), iar coeficienii se gsesc n rnduri lui U = W C . Aceti coeficieni dau reprezentarea
factorial a datelor.

n general, datele de baz obinute cu Arhitectura I reflect mai multe proprieti locale ale
feelor, n timp ce datele de baz n Arhitectura II au proprieti la nivel global i mult mai mult
seamn cu chipurile (Fig. 7.6).

2.6 (SVD singular value decomposition) Multiliniar: "Tensorfaces"

Metodele de analiz liniar discutate mai sus s-au dovedit a fi adecvate atunci cnd prezint,
iluminarea sau expresia fixat pe feele din baza de date. Atunci cand oricare dintre ace ti parametri
variaz, reprezentarea liniar a subspaiului nu capteaza schimbri bune. O abordare alternativ,
multilinear, numit "tensorfaces," a fost propus de ctre Vasilescu i Terzopoulos.

Tensorul este o generalizare multidimensional a unei matrici: un Tensor A de ordinul n este


ai , ,i R. Reinei c exist n modaliti de a
un obiect cu n indici, cu elementele notate prin 1 n

netezii acest tensor (de exemplu, pentru a rearanja elemente ntr-o matrice): Rndul i din tensorul A se
ai , ,i
obine prin concatenarea tuturor elementelor din A de forma 1 s1 ,i ,is + 1 , ,in .
Fig. 7.7. Tensorfaces. (a). Datele tensorului; cele patru dimensiuni vizualizeaz identitatea, prezint
iluminri, i vectorul pixel. Cea dea cincea dimensiune corespunde expresie (doar la subtensor este
pentru afiarea expresiei neutre). (b). Descompunerea Tensorfaces.

O generalizare a multiplicrii unei matrici pentru tensori este l-mode produs de A


l M al

tensorului A i al m k matrici M, unde k este dimensiunea l a tensorului A.

Conform acestei definiii, Vasilescu i Terzopoulos au propus un algoritm numit n-mode SVD,
care descompune n n-dimensiuni tensorul A

Rolul tensorului de baz Z n aceast descompunere este similar cu rolul valorii singulare a
matricii din SVD (ecuaia 4): Ea reglementeaz interaciunile dintre forma matricilor

U 1 , ,U n care conin bazele ortonormale ale spatiilor de calibrat, dimensiunilor corespunztoare


datelor tensorului. Forma matricii poate fi obinut prin aplatizarea tensorului peste dimensiunea
corespunztoare i performana PCA din coloanele matricii rezultate, apoi tensorul de baz este
calculat ca
Noiunea de tensor poate fi aplicat la un ansamblu de imagine a fe ei n felul urmtor : Lund

n considerare un set de N-pixeli a imaginilor de feele ale


N p oameni, fiecare va fi fotografiat din

Nv N i i N e expresii. ntregul set poate fi aranjat ntr-


puncte de vizualizare, cu iluminarea

un
N p Nv Ni Ne N tensor de ordinul 5. Figura 7.7a ilustreaz acest concept: Numai patru
dimensiuni sunt prezentate; pentru a vizualiza pe a cincea (expresie), imaginai-v c tensori celor
patru dimensiuni pentru diferite expresii sunt stivui i.

n acest context, tensorul imaginii feei poate fi descompus n

Fiecare form de matrice reprezint un parametru al aspectului obiectului de studiu. De

exemplu, coloanele
Ne N e ale matrici
Ue acoper spaiul parametrilor de exprimare.

U pixels
Coloanele matricii acoper spaiu imaginii; acestea sunt exact caracteristicile specifice ale
feelor ce ar fi obinute direct de PCA privind ntregul set de date.

Fiecare persoan n baza de date poate fi reprezentat de un singur vector


Np , care
conine coeficieni corespunztori tensorului

Pentru o vizualizare v dintr-un anumit punct , i iluminare, i e expresie, atunci


N p N a

B v ,i , e
matrici poate fi obinut prin indexare lui B pentru v, i, e i aplatiznd rezult

N p 1 1 1 N subtensor al structurii identitii persoanei. Acum, o imagine de antrenare

x p ,v , e, i a unei persoane j n anumite condiii de date poate fi scris ca

unde
c j este rndul j al vectorului U p .

c v .i . e
Avnd n vedere o imagine de intrare x, vectorul coeficientului pretendent este
calculat pentru toate combinaiile de vizualizare, expresie, i iluminare, cu ajutorul ecuaieia (18).
Recunoaterea se realizeaz prin gsirea valoarii j ca o potenial distan euclidien minim ntre c i

vectorii
cj n toate cazurile de iluminre, expresii faciale i unghiuri de vizualizare.
Vasilescu i Terzopoulos au raportat experimene care implic datele tensorului constnd din

imagini din
Np = 28 subieci fotografiai, n condiii de iluminare
Ni = 3 din
Nv =5

Ne
unghiuri de vizualizare cu = 3 expresii ale feei diferite, imaginile au fost redimensionate i
trunchiate, astfel nct acestea conin N = 7493 de pixeli. Performana tensorfaces este semnificativ
mai bun n raport cu cea a eigenfaces standard descris n seciunea 2.1.

3 Subspaii neliniare
n aceast seciune vom descrie o serie de tehnici care nu presupun c principale varia iuni
liniare.

Fig. 7.8. (a). PCA de baz (liniar, ordonat, i ortogonal) (b). ICA de baz (liniar, neordonate, i
nonorthogonal), (c). curba principal (varieti neliniare parametrizate). Cercul arat datele medie.

3.1 Curbe Principal i PCA neliniare

Definiia calitilor varietilor principale neliniare este c imaginea invers a variet ii spaiul
original este o suprafa dimensional mic neliniar (curbat), care "trece prin mijlocul
RN

datelor", minimiznd n acelai timp suma distanei totale ntre punctele datelor i proieciile lor pe
acea suprafa. Adesea se face referire la curbe principale , aceast formulare este n esen o regresie
neliniar asupra datelor. Un exemplu de curb principal este prezentat n figura 7.8c.

Una dintre cele mai simple metode de calcul neliniar al variet i principale este un algoritm
neliniar PCA (NLPCA) ce st la baza unei reele neuronale multistrat (autoencoder) utilizat pentru
reducerea dimensinaloti aa cum se arat n Figura 7.9. "Gtuirea" straturilor neuronale formeaz o
reprezentare de mici dimensiuni multiple printr-o funcie de proiecie neliniar f (x), implementat ca
o sum-de-sigmoids ponderat. Rezultatul componentelor principale y au o cartografiere invers cu o a
funcie de reconstrucie neliniar similar g (y), care reproduce datele de intrare ct mai exact posibil.
Algoritmul NLPCA calculat de ctre o astfel de reea neuronal sigmoidal multistrat este echivalent
(cu anumite exceptions) cu suprafa principal din definiia general. Pentru a rezuma, proprietile
principale ale NLPCA avem
proieciile neliniare corespunztoare ale reconstrucie aproximative, i de obicei nu naintea
cunotinelor privind structura comun a componentelor respective Curba principal din figura 7.8c a
fost generat cu straturile 2-4-1-4-2 ale unei reele neuronale de tipul celei prezentate n Figura 7.9.
Observati cum curba potenialelor principale are o reprezentare compact, relativ exact a datelor, n
contrast cu modele liniare (PCA i ICA).

Fig. 7.9. Reea neuronal Autoasociativ ("gtuit") pentru calcul variet ii principale y
k
R de

la intrarea spaiului, x
N
R .

3.2 Kernel-APC i Metode Kernel-Fisher

Recent analiza componentelor principale neliniare a relansat metoda "nucleului de valori


proprii". Metodologia de baz a lui KPCA este de a aplica o cartografiere neliniar intrrii (x):
N L
R R i apoi rezolvarea cu un PCA liniar din care rezult spaiul caracteristic, unde L este
mai mare dect N i, eventual infinit. Datorit acestei creteri n dimensionalitate, cartografiere (x)
se face implicit (i economic), prin utilizarea funciilor kernel ce satisfac teorema lui Mercer.

unde evalurile kernel k(


x i , x j ) n spaiul de intrare corespund dot-produse n spaiul superior

caracteristica dimensional. Deoarece covarian de calcul se bazeaz pe produsul scalar, performan a


unui PCA n spaiul caracteristic poate fi formulat cu nuclee n spaiul de intrare n mod explicit (i,
eventual, prohibitiv de scump) calculul direct al lui (x). Concret, presupunnd c proiecia datelor n
spaiul caracteristic este zero-medie ("centrat"), covarian este dat de
cu rezultatul ecuaiei vector
V =K V . Deoarece vectori propri (coloanele V) se afl n

x i ), trebuie s fie adevrat, pentru fiecare punct de antrenare


intervalul datelor de antrenare (

i trebuie s existe coeficienii {


w i } astfel nct

Folosind definiia lui


K , nlocuind n ecuaia de mai sus ecuaia 22 i definimd

rezultatele T-by-T n matricea K atunci


K ij =[ ( x i ) ( x j ) ] conduce la o problem cu valori
proprii echivalente formulat n nucleele spaiul de intrare

unde w = (w 1 , , w T )T este vectorul coeficienilor de dilatare dat de eigenvectorul V, definit n

K ij x i , x j ) este apoi diagnosticat cu un PCA standard.


ecuaia (23). Matricea nucleu = k(
n n
Vectorii proprii Orthonormali, ( V V ) = 1, conduce la normalizarea echivalentului coeficienilor

n ( w n w n ) = 1.
de extindere respectivi,

Ulterior, componentele principale KPCA ale oricrui vector de intrare pot fi eficient calculate

cu o simpl evaluare de nucleu fa de setul datelor. A n-a component principal


yn a imaginii x
este dat de
unde
Vn este al n-lea eigenvector al spaiului caracteristicilor definite de . Ca i n cazul

Vn
PCA, vectorii proprii pot fi clasificai n funcie de ordinea descresctoare a valorilor proprii
T
n i proiecia d-dimensional a imaginii varietate x este y = ( y 1 , , y d ) , cu componente
individuale, definite de ecuaia. (25).

Un avantaj semnificativ al KPCA peste reele neuronale i curbele principale este c acest
KPCA nu are nevoie de optimizare neliniar, nu este supus overfitting-ului, i nu necesit cunotine
anterioare de arhitectura de reea sau de numrul de dimensiuni. n plus, spre deosebire de algoritmul
tradiional PCA, se pot folosi mai multe proiecii de eigenvectori dect dimensionalitatea datelor de
intrare (deoarece KPCA, se bazeaz pe matricea K, numrul vectorilor proprii sau caracteristicile
disponibile au valoarea T). Pe de alt parte, alegerea optim a nucleului (i a parametriilor asocia i)
2 2
rmne o "problem de inginerie." Nucleele tipice includ Gaussienele exp (x ix j ) ,

x
polinomialele ( i x j )
d
i sigmoidele tanh (a (
x i x j ) + b), toate satisfac teorema lui

Mercer.

Similar cu derivarea lui KPCA, se poate extinde metoda Fisherfaces prin aplicarea FLD n
spaiul caracteristic. n experimentele pe dou seturi de date care conineau imaginii ntre 40 i
respectiv 11 subieci, , cu diferite prezentri, la scar, i iluminare, acest algoritm de performan a
artat n mod clar superioaritatea celorlalte adic: ICA, PCA, i KPCA i oarecum mai bun dect cea
a Fisherfaces standard.

4 Compararea empiric a metodelor subspaiului


Moghaddam a fcut o evaluare extensiv la multe dintre metodele subspaiului descrise mai
sus pe un subset de date din setul FERET. Datele experimentale au constat din antrenarea "galerie" de
706 fee individuale FERET i 1123 imaginii de "prob" care conin persoane din galerie privite
fiecre din unul sau mai multe unghiuri. Toate aceste imagini au fost aliniate i normalizate aa cum
este descris de Moghaddam i Pentland. Multe imagini de prob oglindesc diferite expresii faciale,
moduri de iluminare, portul ochelarilor i aa mai departe. Studiul a comparat abordarea bayesian
descris n seciunea 2.4 cu un numr de alte tehnici i a testat limitele algoritmilor de recunoatere cu
privire la rezoluia imaginii sau echivalentul gradului de vizibilitate a detaliilor faciale. Deoarece
algoritmul Bayesian a fost evaluat independent n Statele Unite ale Americii (Defense Advanced
Research Projects Agency- DARPA) printr-o ac iune FERET de recunoatere a fe ei cu o precizie de
3
95% pe O( 10 , persoane fizice la o rezolutie medie a imaginii de (84 44 pixeli). Aceast

realizare a decis reducerea rezoluiei cu un factor de 16. Prin urmare, fe ele aliniate n setul de date au

fost sub-eantionate la 21 12 pixeli, obinndu-se vectori de intrare de RN =252 spaii. Cteva


exemple sunt prezentate n Figura 7.10a, b.
Fig. 7.10. Experimentele pe datele FERET. (a). Confruntarea cu mai multe fe e din galerie. (b). probe
multiple pentru un singur individ, cu diferite expresii faciale, ochelari, iluminare variabil ambiental,
i contrastul imaginii. (c). Eigenfaces. (d). Imagini prelucrate cu ICA de baz.

Rezultatele obinute au fost validate de cinci ori cu metoda de analiz Cross-Validation (CV).
Setul total de date de 1829 chipuri (706 indivizi unici i 1123 probe colective) a fost mprit n cinci
subseturi aleatorii unice de persoane fizice i probele asociate acestora. Fiecare subset cuprinde att
imagini galerie ct i probe ale aproximativ 140 de indivizi unici. Pentru fiecare dintre cele cinci
subseturi, aciunea de recunoatere a fost dispus corect celor 140 de probe multiple din galeria
feelor, utiliznd celelalte patru subseturi ca date de antrenare. De re inut este faptul c, cu N = 252 i
folosind 80% din ntregul set de date de antrenare, exist aproape de trei ori mai multe mostre de
instruire dect dimensionalitatea datelor; astfel, parametri estimrilor (pentru PCA, ICA, KPCA, i
metoda Bayesien) au fost corespunztori.

Rezultat celor cinci studii experimentale au fost adunate pentru a calcula medie i deviaia
standard a ratelor de recunoatere pentru fiecare metod. Faptul c seturile de antrenare i de testare nu
au avut nici o suprapunere n privina identitilor individuale a dus la o evaluare a algoritmilor
generalizarea performan-abilitatea de a recunoate noi indivizi care nu au fcut parte din galeria de
calcul sau modelarea densitii cu setul de antrenare.

Experimentele iniiale de recunoatere au folosit o varietate dimensional implicit k = 20.


Aceast alegere a lui k sa fcut din dou motive: A condus la o eroare rezonabil de reconstrucie PCA
de mrimea MSE = 0.0012 (sau 0,12% per pixel cu o gam de intensitate normalizat de [0,1]) i o
rat a recunoaterii de referin PCA de aproximativ 80%, lsnd astfel o marj considerabil de
mbuntire. Deoarece experimentele de recunoatere au fost, n esen, o activitate de 140 ci de
clasificare , ansa de performan a fost de aproximativ 0,7%.

4.1 Recunoaterea PCA de baz

Algoritmul de referin pentru aceste experimente de recunoatere a feei, a fost algoritmul de


potrivire standard-PCA (eigenface). Primi opt vectori principali calcula i dintr-o singur partiie sunt
prezentai n figura 7.10c. Proiecia setului de probe de test a unei varietti (galerie) liniare de 20 de
dimensiuni (calculate cu PCA numai din setul de antrenare), urmat de cea mai apropiat asemnare a
celor 140 de imagini "galerie`` folosind o metric euclidian a dat o rat medie de recunoatere de
77.31%, cu cea mai mare rat atins fiind 79.62% (Tabelul 7.1). Imaginea complet a vectorului cel
252
mai apropiat vecin (ablon de potrivire) (de exemplu x R ) a dat o rat de recunoatere de
86.46% (a se vedea linia punctat din Figura 7.11). n mod evident, cum era de ateptat performana
este degradat de reducerea dimensionalitii 252 20.
4.2 Recunoaterea ICA de baz

Pentru recunoaterea ICA de baz (Arhitectur II, a se vedea seciunea 2.5) doi algoritmi de
baz de ordinul patru cumulani exprimai de: algoritmul "JADE" al lui Cardoso i algoritmul fixed-
point al lui Hyvarinen i Oja. Ambii algoritmi sunt un PCA in etap de inobilare ("sphering"), precedat
de descompunerea algoritmului de baz ICA. Algoritmul corespunztor nonorthogonal JADE derivat
din ICA de baz este prezentat n figura 7.10d. Similar fe ele de baz au fost obinute cu metoda lui
Hyvarinen i Oja. Aceste fee de baz sunt coloanele matricei A din ecuaia (14), i combinarea lor
liniar reconstituie datele de antrenare. Proiecia variet ii ICA a setului de test a fost obinut folosind

y= A1 x. Asemnarea celui mai apropiat vecin cu ICA folose te norma euclidian L2 care are o

rat medie de recunoatere de 77.30%, cea mai mare rat fiind 82.90% (Tabelul 7.1). Exist o mic
diferen ntre cei doi algoritmi ICA i remarcm faptul c ICA a dus cea mai mare variaie de
performan n cele cinci studii (7.66% SD). Ratele recunoateri medi de baz nu sunt clare dac ICA
ofer un avantaj sistematic asupra lui PCA sau dac "mai multe non-Gaussiane" i / sau componente
"mai independente" duc la o mai bun varietate n scopul recunoateri cu acest set de date.

Rezultatele experimentale ale lui Bartlett cu feele FERET a favorizat ICA peste PCA. Acest
dezacord aparent poate fi conciliat dac lum n considera ie diferite configurri experimentale n
alegerea msurii de similitudine. Feele din acest experiment au fost selectate mult mai strict,
nemailsnd informaii cu privire la pr i forma feei, i cu o rezoluie mai sczut, factorii care
atunci cnd sunt combinai pot face sarcina recunoateri mult mai dificil.

Al doilea factor este alegerea funciei distana folosit pentru a msura similaritate n
subspaiu. Aceast chestiune a fost analizat n continuare de ctre Draper. Cele mai bune rezultate
pentru ICA sunt obtinute cu ajutorul distanei cosinus, n timp ce pentru eigenfaces metrica L1 pare a
fi optim; cu metrica L2, care a fost, de asemenea, utilizat n experimente, performana lui ICA
( Arhitectura II) a fost similar cu cea a eigenfaces.

Tabelul 7.1. Preciziile Recunoaterii cu k = 20 proiecii ale subspaiului folosind validarea de cinci ori.
Rezultatele sunt n procente

Tabelul 7.2. Compararea tehnicilor de subspaiului pe atribute multiple (k = 20).


4.3 Recunoaterea KPCA de baz

Pentru KPCA, parametrii Gaussiani, polinomialele, i nucleele sigmoidale au fost


perfecionate pentru cea mai bun performan, cu o validare diferit 50/50 a partiie setului. Nucleele
Gaussiane s-au dovedit a fi cele mai bune pentru acest set de date. Pentru fiecare studiu, matricea
kernel a fost calculat din datele de antrenare corespunztoare. Setul de test stabilit (gallery) i probele
au fost proiectate pe eigenvectorul kernel de baz (ec. 25) pentru a obine componentele neliniare
principale care au fost apoi utilizate n cea mai apropiat asemnare-vecin a setului de probe prevzute
n setul imaginilor din galerie. Rata medie de recunoatere sa dovedit a fi 87.34%, cu cea mai mare
rat fiind 92.37% (Tabelul 7.1). Abaterea standard a proceselor KPCA a fost uor mai mare (3.39)
dect cea din PCA (2.21), dar Figura 7.11 indic faptul c KPCA nu lucreaz mai bine dect PCA i
ICA, justificnd astfel utilizarea extracie neliniare a facilita ilor.

4.4 Recunoaterea MAP de baz

Pentru asemnarea Bayesian, antrenarea corespunztoare s celor dou clase


I (fig.

E
7.10b) i (Fig. 7.10a) a folosit densitile estimate ale unui dublu PCA de baz P ( |

I ) i P ( |
E ) . Acestea au fost modelate att ca un singur Gaussians cu dimensiunile

kI k E . Dimensionalitatea total a subspaiului k a fost mprit n


subspaiului de i respectiv

mod egal ntre cele dou densiti prin setarea


k I =k E =k 2 pentru modelare.

Fig. 7.11. Recunoaterea performanelor varietilor lui PCA, ICA, i KPCA versus asemnarea
Bayesian (MAP) similarity cu subspaiu dimensional k = 20. Linia punctat indic performana de a
potrivi cel mai apropiat vecin, cu vectori imagine de dimensiuni maxime.
Fig. 7.12. Precizia Recunoateri R(k) din PCA, KPCA, i Bayesian similarity cu creterea
dimensionalitii k subspaiului principal. Rezultatele ICA, care nu sunt prezentate, sunt similare cu
cele ale APC.

Cu k = 20, dimensiunea subspaiului gaussian iar


kI = 10 i
kE = 10 au fost folosite

I ) i respectiv P ( | E ). Reinem c k I
pentru P (
+k E = 20, se aseamn
|
astfel cu numrul total de proiecii utilizate de trei tehnici principale multiple. Utiliznd la maxim a
posteriori (MAP) similitudine n ecuaia. (9), tehnica de asemnare Bayesian a dat o rat de
recunoatere medie de 94.83%, cu cea mai mare rata de atins fiind 97.87% (Tabelul 7.1). Deviaia
standard a celor cinci partiii pentru acest algoritm a fost, de asemenea, cel mai mic (1,96) (Fig 7.11).

4.5 Compactarea variaiunilor

Performana metodelor diferite, cu varietti de diferite dimensiuni pot fi comparate de trasarea


ratelor de recunoatere R(k) n funcie de primele componente principale k. Pentru tehnicile de
potrivire multiple, acest lucru nseamn pur i simplu folosirea unui subspaiu de dimensiune k (prima
component k a lui APC / ICA / KPCA), n timp ce pentru tehnica de asemnare Bayesian acest lucru

nseamn c dimensiunile subspaiului gaussian ar trebui s satisfac


kI +k E = k. Astfel, toate

metodele sunt folosite pe acelai numr de proiecii ale subspaiului. Acest test a fost premis pentru
unul dintre punctele-cheie investigate de Moghaddam: Avnd n vedere acelai numrul de proiecii
ale subspaiului, care dintre aceste tehnici este mai bun pentru modelarea datelor i recunoaterea
ulterioar? Prezumia este c prelucrarea cu cea mai mare rat de recunoatere i cu cea mai mic
dimensiune este de preferat.

Pentru acest test special de dimensionalitatea, setul datelor totale de imagini 1829 a fost
mprit (split) n jumtate: un set de 353 imagini de antrenare ale galeriei (selectate aleatoriu),
mpreun cu 594 probe de testare corespunztoare i un set care conine restul de 353 imaginile ale
galeriei corespunztoare celor 529 probe. Seturile de antrenare i de testare nu au avut nici o
suprapunere n ceea ce privete identitatea persoanelor fizice. Ca i n experimen ele anterioare,
probele de ncercare au fost adaptate la imaginile galeriei pe baza proieciilor (sau densitii), calculate
cu setul de antrenare. Rezultatele acestui experiment sunt prezentate n figura 7.12, care exemplific
ratele de recunoatere funcie de dimensionalitatea subspaiu k. Aceasta este o comparaie mai
relevant de performan relativ a metodelor, ca compactitate de varietati definite de cea mai mic
valoare acceptabil a lui k care este un element important n ceea ce privete att eroare de
generalizare (overfitting) ct i cerinele de calcul.

4.6 Disctii

Performana relativ a tehnicilor principale multiple i de asemnare Bayesiene este rezumat


n Tabelul 7.1 i Figura 7.11. Avantajul de potrivire probabilistic peste asemnrile metrice ale
ambelor varieti liniare i neliniare este destul de evident (cretere de 18% peste PCA i

8% peste KPCA). Reinem c rezultatele testului de dimensionalitate din figura 7.12 indic faptul c
KPCA surclaseaz PCA cu o marj de 10%, doar cu cteva componente principale. Cu toate

acestea, asemnarea Bayesian atinge 90% cu doar patru proiecii dou pentru fiecare P( |

i domin att PCA i KPCA pe ntregul interval de dimensiuni al subspaiului, figura 7.12.

O comparaie a tehnicilor de subspaiului cu privire la mai multe criterii este prezentat n


tabelul 7.2. De reinut este c PCA, KPCA, i estimarea dublei densit i a subspaiului sunt unic
definite pentru un anumit set de antrenare (fcnd comparaii experimentale repetabile), n timp ce
ICA nu este unic din cauza unei varieti de tehnici utilizate pentru a calcula baza i optimizarea
iterativ implicat (stochastic). Avnd n vedere calculul relativ (de antrenare), KPCA necesit 7
9 8
10 operaiuni n virgul mobil, comparativ cu PCA 2 10 operaiuni. n medie,
calculul ICA a avut un ordin de mrime mai mare dect cel al PCA. Deoarece metoda de antrenare a
similitudini Bayesiane implic dou PCA separate, calculul su este doar de dou ori ca al PCA (avnd
acelai ordin de mrime).

Avnd n vedere avantajul su de performan semnificativ (la dimensionalitatea subspaiului sczut)


i simplitatea ei relativ, metoda de dual-eigenface asemnare Bayesian este foarte eficient ca
tehnic de modelare a subspaiului pentru recunoaterea feei. n testele independente FERET
desfurate de ctre US Army n laborator tehnica de similitudine Bayesian a dep it pe PCA i alte
tehnici de subspaiu, cum ar fi discriminantul liniar al lui Fisher (cu o marj de cel puin 10%).
Rezultatele experimentale descrise mai sus arat c o precizie de recunoatere similar pot fi realizate
folosind doar "miniaturi" cu pixeli de 16 ori mai puini dect n imaginile folosite n testul FERET.
Aceste rezultate demonstreaz soliditatea tehnica de asemnare Bayesian cu privire la rezoluia
imaginii, dezvluind cantitate surprinzator de mica de detalii faciale necesare pentru o performan cu
precizie mai mare a aceastei tehnici de nvare.

5 Metodologie i utilizare
n special, abordrile menite s ia n calcul aspectul imaginilor diferite dintr-o baz de date. V
prezentm, de asemenea, o serie de extensii i modificri ale metodelor de subspaiu.
Fig. 7.13. Parametrice versus metode eigenspace de baz. (a). Reconstrucii a imaginii de intrare
(stnga) cu parametrice (mijloc) i vizualizare eigenspaces de baz (dreapta). Sus imagini de
antrenare; jos: imagine probe (test). b. Diferene ntre cele dou abordri ale variet i de control.

5.1 Abordarea prezentrii, mai multe vizualizri de baz

Problema de recunoatere a feei, n condiii generale de vizualizare (schimbare n prezentare)


poate fi abordat, de asemenea, utiliznd o formulare eigenspace. n esen, exist dou moduri de
abordare a acestei probleme folosind un cadru eigenspace. Avnd n vedere persoanele M avnd
puncte de vizualizare diferite C, se poate face recunoaterea i estimarea prezentrii ntr-un eigenspace
universal calculat de la combinaia de imagini MC. n acest fel, un singur parametru eigenspace de
identitate, rezolv prezenterea. O astfel de abordare, a fost folosit de ctre Murase i Nayar pentru
recunoaterea general 3D a obiectelor.

Alternativ, avnd M persoanele n conformitate cu C puncte de vizualizare diferit, putem


construi un set de vizualizri de baz avnd C eigenspaces-uri distincte, fiecare variaie capturat a
indivizilor M va avea un punct de vedere comun. Captura eigenspace este, n esen, bazat pe o
extensie a tehnicii de eigenface a mai multor seturi de vectori, cte unul pentru fiecare combinaie de
scar i de orientare. Se poate vizualiza acest arhitectura ca un set de observatori paraleli, fiecare
ncercnd s explice datele imagini cu un set de vectori proprii. n acest vizualizare de baz pentru
abordarea observatorilor multipli, primul pas este de a determina locaia i orientarea obiectului int
prin selectarea eigenspace care descrie cel mai bine imaginea de intrare. Acest lucru poate fi realizat
prin calcularea probabilitii estimate folosind vectorii proprii n fiecare spa iu de lucru i selectnd
apoi maximul probabilistic.

Cheia diferenei dintre vizualizrile de baz i parametrice poate fi neleas prin luarea n
considerare a geometriei spaiului feei, ilustrat n figura 7.13b. n spaiul vectorial de dimensiuni
lrgite a unei imagini de intrare, antrenarea imaginilor de fe e cu multiple orientri ale pozi iei sunt
reprezentate de un set C de regiuni distincte, fiecare definit prin dispersia indivizilor M. Exist mai
multe vizualizri a formei nonconvexe a fe ei n regiuni din spaiul imagini. Prin urmare, ansamblul
rezultat este o varietate extrem de complex i nonseparabil.

Parametri eigenspace au ncercat s descrie acest ansamblu cu o proiec ie pe un subspaiu


liniar singur de dimensiuni reduse (corespunztoare vectorilor proprii k ai primei imagini de antrenare
MC). n contrast, abordarea vizualizarii de baz corespunde subspaiilor independente C, fiecare
descriind o anumit regiune a spatiului feei .
Fig. 7.14. Multivizualizarea datelor imaginilor utilizate n experimente descrise n seciunea 5.1.

Varietatea principal
vc din fiecare regiune c este extras separat. Relevante aici este faptul
c prin analogie se poate modela o distribuie complex de a unui singur cluster prin unirea mai multor
clustere componente. Desigur, aceast din urm vizualizare de bas poate produce la o reprezentare
mai precis a geometriei de baz.

Aceast diferen de reprezentare devine evident atunci cnd se analizeaz calitatea


imaginilor reconstruite utiliznd cele dou metode. Figura 7.13 compar reconstruciile obinute cu
cele dou metode atunci cnd antrenarea se face pe imagini de fee cu orientri multiple. Pe rndul de
sus a figurii 7.13a, vom vedea mai nti o imagine din setul de antrenare, urmat de reconstructii ale
acestei imagini folosind primul parametru eigenspace i apoi vizualizarea de baz eigenspace.
Reconstrucia parametrilor nu prezint identitatea individului capturat corespunztor. Reconstrucia
vizualizrii de baz, pe de alt parte, ofer o mult mai bun caracterizare a obiectului. n mod similar,
pe rndul de jos al Figura 7.13a, avem o vizualizare la (68 ) pentru setul de antrenare (90 la +45 ).
Aici, reconstrucia este la cel mai apropiat set de antrenare (45 ), dar refacerea vizualizrii de baz
este considerat a fi mai reprezentativ pentru rezolvarea identitii individului. Dei calitatea de
reconstrucie nu este un indicator direct al capacit ii de recunoatere, de la un anumit punct de
vizualizare informaiile teoretice ale reprezentarii multiple eigenspace este o oglindire mai precis a
coninutului semnalului.

Abordarea vizualizrii de baz a fost evaluat pe date similare cu cele prezentate n figura
7.14, care au constat din 189 imagini: nou puncte de vizualizare ale 21 de persoane. Puncte de
vizualizare au fost repartizate uniform de la 90 la + 90 de-a lungul planului orizontal. n
prima serie de experimente, performana interpolrii a fost testat pe un subset de antrenare de puncte
de vizualizare disponibile ( 90, 45, 0) i testarea pe punctele de vizualizare intermediare ( 68 ,
23 ). Astfel s-a obinut o rat de recunoatere medie de 90%. O a doua serie de experimente a fost
testarea performanei extrapolri pe un set de antrenare al punctelor de vizualizare (de exemplu,
90 la + 45) i testarea pe noile puncte de vizualizare n afara intervalului de antrenare

(de exemplu, + 68 i + 90). Pentru testarea vizualizrii separate din gama de antrenare,
23 rata medie de recunoatere a fost de 83%. Pentru unghiuri de vizualizare de test de 45, rata
medie de recunoatere a fost de 50%.

5.2 Recunoaterea modular


Metoda de recunoate eigenface este uor de extins la caracteristicile faciale, aa cum se arat
n Figura 7.15a. O mbuntire a performanelor recunoaterii se poate face prin ncorporarea unui
strat suplimentar de descriere a caracteristicilor faciale. Acest lucru poate fi privit ca o reprezentare
modular sau stratificat de o fa. Descriere grosier (rezoluie mic) a ntregului cap este extins la
detalii suplimentare (rezoluie mai mare) n ceea ce privete caracteristicile faciale importante
(eigenfeatures). Utilitatea acestei reprezentari stratificate (eigenface plus eigenfeatures) a fost testat
pe un subset mic a unei mari baze de date cu fe e: un eantion reprezentativ de 45 de indivizi cu dou
puncte de vizualizare pe persoan, crora le corespund diferite expresii faciale (neutr vs. zmbitoare).
Acest set de imagini a fost mprit ntr-un set de antrenare (neutru) i un set de testare (zambind).
Deoarece diferena dintre aceste expresii faciale speciale este n primul rnd articula ia gurii, aceast
caracteristic a fost abandonat scopului de recunoatere.

Fig. 7.15. Eigenspaces modular. (a). patch-uri dreptunghiulare ale cror aspecte sunt modelate cu
eigenfeatures. (b). Performana lui eigenfaces, eigenfeatures, i o combinaie a ambelor stratificate n
funcie de dimensiunea subspaiului.

Figura 7.15b arat ratele de recunoatere n funcie de numrul de vectorilor proprii doar
pentru eigenface, doar eigenfeature, i reprezentarea combinat. Ceea ce este surprinztor este faptul
c (pentru acest set de date cel puin mici) doar eigenfeatures erau suficiente pentru a atinge o rat de
recunoatere (asimptotic) de 95% (egal cu cea a eigenfaces).

Surprinztoare, este observaia c la dimensiuni inferioare ale eigenfeatures, eigenspace a


depit recunoaterea eigenface. n cele din urm, prin utilizarea combinat a reprezentrii, se poate
dobndi o uoar mbuntire a ratei de recunoatere asimptotic (98%). Un efect similar a fost
raportat de Brunelli i Poggio unde rezultate corelate i normalizate cumulativ ale abloanelor pentru
fa, ochi, nas i gur au dus la o mbuntire a performanei comparativ cu doar ablonul fe ei .

Un avantaj potenial al nivelului eigenfeature este abilitatea de a depi deficienele metodei


eigenface standard. Un sistem de recunoatere pur eigenface poate fi pclit de variaii brute n
imaginea de intrare (de exemplu, plrii, brbi). Cu toate acestea, funcia de reprezentare de baz
poate gsi nc o potrivire corect concentrndu-se pe trsturile caracteristice vizibile (de exemplu,
ochii i nasul).

5.3 Recunoaterea cu Seturi


O paradigm interesant a recunoaterii faciale implic un scenariu n care de intrare nu const
din o singur imagine, ci de un set de imagini de persoane necunoscute. Setul poate consta dintr-o
secven de cadre nvecinate sau neadiacente a unei imagini video, probabil neordonate, set de
fotografii extrase dintr-un video sau obinute de la instantanee individuale. O abordare posibil, a fost
s se aplice metode standard de recunoatere pentru fiecare imagine din setul de intrare i apoi s se
combine rezultatele obinute, de obicei prin mijloace de vot.

Cu toate acestea, un set mare de imagini conin n ele mai multe informaii dect fiecare
imagine individual: Acestea ofer indicii nu numai pe aspectul posibil de pe o fa a cuiva, ci, de
asemenea, pe modelele tipice de variaie. Din punct de vedere tehnic, un set de imaginii cunoscute
care conin fata unui individ permit un subspaiu intrinsec estimat o pentru a reprezenta acel individ,
astfel nct setul de intrare neetichetat conduce la estimarea subspaiului care reprezint obiectul
necunoscut. Sarcina de recunoatere poate fi apoi formulat n termeni de asemnare a subspatiilor.

Una dintre primele abordri la aceast sarcin a fost metoda reciproc a subspaiului (mutual
subspace method-MSM), care extrage subspaiul principal liniar al unei dimensiuni fixe (prin PCA) i
msoar distana dintre subspaii prin intermediul unor unghiuri principale (unghiul minim dintre
oricare doi vectori din subspatii). MSM are caracteristica dorit de acesta construind un model
compact de observaii distribuite. Totui, se ignor caracteristicile statistice importante ale datelor, ca
valorile proprii corespunztoare ale componentelor principale, precum i mijloacele de probe care sunt
luate n considerare prin comparaie. Astfel, deciziile sale pot fi statistic sub nivelul optim.

A fost propus o abordare probabilistic de msurare a similitudini subspaiului. Modelul


statistic de baz presupune c imaginile de pe fa a persoanei j au densitatea probabil pj; densitatea

feei necunoscute a unui subiect este notat cu


po . Sarcina sistemului de recunoatere este de a gsi

eticheta clasei j*, satisfcnd urmatoarea relaie

po , rezolvarea ecuaia.
Prin urmare, avnd n vedere un set de imagini distribuite de ctre
(26) const n alegerea optim ntre ipotezele M sub form de statistici denumite uneori ipotezele celor
doua probe: adic dou seturi de exemple provin din aceeai distribuie. O modalitate de principiu de a

rezolva aceast sarcin este de a alege ipoteza j pentru care divergena Kullback-Leibler ntre
po i

p j este minimizat.

n realitate, distribuiile
pj sunt necunoscute i trebuie s fi estimate din date, precum i

po . Shakhnarovich a modelat aceste distribuii ca Gaussiane (unul pe subiect), care sunt estimate

n conformitate cu metoda descris n seciunea 2.2. Divergen KL este apoi calculat n form
nchis. n experimenele efectuate, aceast metod a depit n mod semnificativ MSM.

Modelarea distribuiilor de ctre un singur Gaussian este oarecum restrictiv; Wolf i Shashua
a extins aceast abordare i a propus o metod neparametric discriminativ: nucleul principal al
unghiurilor. Ei au inventat un nucleu definit pozitiv care opereaza pe perechi de matrici de date prin
proiecia datelor (coloane) ntr-un spaiu caracteristic de dimensiune arbitrar, n care unghiuri
principale pot fi calculate prin calculul produselor interioare dintre exemple (de exemplu, de aplicare a
nucleului) . Aceast abordare corespunde subspaiului de analiz neliniar din spaiul original; de
exemplu, se pot utiliza nucleele polinom de grade arbitrare. n experimentele care a inclus o sarcin de
recunoatere a feei pe un set de nou subiecii, aceast metod a depit n mod semnificativ att
MSM i modelul Gaussian-based KL-divergence al lui Shakhnarovich.

6 Concluzie
Metodele Subspace s-au dovedit a fi un mare succes n recunoaterea feei, deoarece sunt
folosite n multe activiti de viziune. Exist dou direcii mai notabile de evoluie : (1) trecerea de la
liniar la general, eventual neliniare, i varieti deconectate; i (2), introducerea de metode
probabilistice n special Bayesiane care se ocup cu incertitudinea i cu similitudinea. Toate aceste
metode mprtesc aceeai ipotez de baz: c fenomene vizuale aparent complexe cum ar fi imagini
de chipuri umane, reprezentate ntr-un spaiu de msurare de nalt-dimensionale, sunt adesea
intrinseci n spaiu de mic-dimensionalitate. Exploatarea acestui spaiu de dimensionalitate redus
permite un sistem de recunoatere a feei, cu calcule simple i concentrarea ateniei asupra
caracteristicilor datelor relevante pentru identitatea unei persoane.

S-ar putea să vă placă și