Documente Academic
Documente Profesional
Documente Cultură
Pentru a specifica o imagine arbitrar n spaiul imagini, este nevoie de a specifica valoarea
fiecarui pixel. Astfel, dimensionalitatea "nominal" a spaiului, impus de reprezentare pixelului, este
mn, un numr mare chiar i pentru o imagine de dimensiuni modeste. Metode de recunoatere care
opereaz pe aceast reprezentare sufer de o serie de potenial dezavantaje ale dimensionalit i
Cu toate acestea, o mare parte din suprafaa fe ei este neteda i are o textur regulat. Prin
urmare, eantionul de pixeli este, foarte dens: Valoarea unui pixel este de obicei foarte corelat cu
valorile pixelilor din jur. n plus, aspectul de fee este foarte limitat, de exemplu, orice vizualizare
frontal a feei este aproximativ simetric, are ochi pe laturi, nas n mijloc, i aa mai departe. O mare
parte a punctelor din spaiul imagini feei nu reprezint un fizic posibil. Astfel, imaginile fe ei sunt
supuse unor constrngeri naturale de fapt limitate la un subspaiu denumit spaiul fe ei.
Modelul comun pentru spaiul feei ce se regse te n principala varietate ( principal manifold)
este ncorporat n spaiul de imagine inalt-dimensional. Dimensionalitate sa intrinsec este
determinat de numrul de grade de libertate n spaiul fe ei; scopul analizei subspaiului este de a
stabili acest numr i pentru a extrage principalele moduri de analiz stuctural a variet ii spa iului
feei. Principalele moduri sunt calculate funcie de valorile pixelilor i menionate n continuare n
funciile de baz ale varietilor principale.
origine i paralel cu vectorul a = [a1 , a 2 , a3 ]T . Orice punct de pe linie poate fi descris prin trei
coordonate; cu toate acestea, subspaiul care const din toate punctele de pe linie are un singur grad de
libertate, cu principalul mod de translaie corespunztoare de-a lungul direciei a. n consecin,
x1 , x2 , x3 ) =
reprezentarea punctele n acest subspaiu necesit o singur funcie : (
3
maxim i este ales ca prim component principal. ntr-un caz bidimensional a doua component
principal este determinat unic de restric iile ortogonale, ntr-un spaiu dimensional mai mare
procesul de selecie va continua, ghidat de variania proieciilor.
PCA este strns legat de transformata Karhunen-Love (KLT) care a fost derivat n
T
contextul de procesare a semnalului transformat ortogonal cu baza = [ 1 , , N ] , care pentru
orice k N minimizeaz eroarea medie de reconstrucie L2 pentru datele punctului x
n ipoteza c datele sunt n medie zero, formulele de PCA i KLT sunt identice.
Vectorii de baz n KLT pot fi calculai n felul urmtor. Fie X datele matricii N M ale cror
coloane
x 1 , x M sunt observaii unui semnal ncorporat n R
N
; n contextul recunoaterii feei,
M este numrul disponibil de imagini cu fee, i N = mn este numrul de pixeli din imagine. Valoarea
de baz transformatei KLT se obine prin rezolvarea problemei valorilor proprii (eigenvalue) =
T
, unde este matricea de covarian a datelor.
este matricea eigenvectorului
T
= [ 1 , , N ] , iar este diagonal matricii cu valorile
1 N ale eigenvectorului j
proprii de pe principalela sa diagonal, este
eigenvectorul corespunztor celei mai mari valorii proprii j. Apoi, acesta poate fi demonstrat c este
valoare proprie
i variaiei datelor proiectate pe i .
ului este prelucrarea datele n scopul reducerii zgomotului: matricea de covarian a Tk X este
ntotdeauna diagonal.
respectivelor a componentelor principale y i=Ti x. Aceste proprieti sunt ilustrate n Figura 7.1, n
cazul n care PCA este de succes n gsirea variet ii principale, i n figura 7.8a, n cazul n care
aceasta este mai puin succes, datorit neliniaritii clare a variet ii principale.
PCA poate fi pus n aplicare prin descompunerea valoarii singulare (SVD). SVD-ul matricii
M x N unde X(M N) este dat de
Fig. 7.1. Conceptul de PCA/ KLT. (a). linii continui, baz original; linii punctate, baza KLT. Punctele
sunt selectate n locaii distante regulate pe o linie dreapt rotit la 30 i apoi perturbate de zgomot
gaussian izotrop 2D. (b). Proiecie (reconstrucie 1D) a datelor folosind doar prima component
principal.
algoritm rezonabil pentru detectarea k va cuta amplasarea descresctoare de-a lungul eigenspectrului
recunoaterea feei, i alegerea natural a k pentru un astfel de spectru, este prezentat n figura 7.3b.
2 Subspaii liniare
Poate c cel mai simplu caz de analiz a varietii principale apare n ipoteza c aceasta este
liniar. Originalul a fost translatat n fa medie (media imaginilor din baza de date), prin scderea
acestuia de la orice imagine, spaiul feei este un subspaiu liniar al spaiului imagini. n aceast
seciune vom descrie metode care funcioneaz n conformitate cu aceast presupunere i generalizarea
la o varietate multilinear.
Fig. 7.2. Eigenfaces: faa medie n stnga, urmat de apte eigenfaces de top.
n activitatea lor de cercetare n 1990 Kirby i Sirovich au propus utilizarea a PCA pentru
analiz i reprezentarea feei. Lucrarea lor a fost urmat de tehnica "eigenfaces" a lui Turk i Pentland
prima aplicaie folosind PCA pentru recunoaterea fe ei. Deoarece vectorii de baza constitui i de ctre
PCA au avut aceeai dimensiune ca imaginile de intrare cu fe e, ace tia au fost numiti "eigenfaces."
Figura 7.2 prezint un exemplu de fata medie, precum i cteva dintre eigenfaces-urile top. Fiecare
imagine de fa a fost reflectat (dup transformarea n fa medie) n subspaiul principal; coeficienii
de expansiune PCA au fost n medie pentru fiecare subiect, rezultnd o unic dimensiune k
reprezentnd acest subiect. Cnd o imagine de test a fost oglindit n subspaiul, distanele euclidiene
ntre coeficientul vectorului su i reprezintarea fiecarui subiect au fost calculate. n funcie de distana
fa de subiect, pentru care aceasta ar fi cea mai mic, i de eroarea de reconstrucie PCA (ecua ia 1),
imaginea a fost clasificat ca aparinnd uneia dintre subieci , ca o fa nou, sau ca o nonfa . Acest
din urm demonstraie are o dubl utilizare a tehnicilor de subspaiu pentru detecie: n cazul apariiei
unei clase de obiecte (de exemplu, fee) este modelat un subspaiu, distana euclidian de la acest
subspaiu poate servi pentru a clasifica un obiect ca membru sau nemembru al clasei.
I1 I2
euclidiene a diferenei = oglindit n subspaiu, ignornd n esen, moduri de variaie
n subspaiul i n afara lui. Acest lucru a fost mbuntit n extinderea eigenfaces-ului propus de
Moghaddam i Pentland, care folosete o msur de similaritate probabilistic bazat pe o estimare
parametric a densitii de probabilitate p( | ).
O dificultate major cu astfel de estimare este c n mod normal nu sunt aproape date
suficiente pentru a estima parametrii de densitate ntr-un spaiu dimensional ridicat. Moghaddam i
Pentland au rezolvat aceast problem prin utilizarea PCA mpr ind spatiul vectorial RN n dou
k (primele k coloane
subspaii, aa cum se arat n Figura 7.3: principal subspaiu F, obinut prin
F
ale lui) i complementul ortogonal calibrat al coloanelor rmase ale lui . Aici presupunerea de
operare este faptul c datele au k dimensionalitate intrinsec (cel mult) i, astfel, se regsesc n F, cu
F
excepia a aditivului zgomot gaussian alb din cadrul . Fiecare imagine poate fi descompus n
dou componente ortogonale de proiecie n aceste dou spaii. Figura 7.3a arat descompunerea n
distan n spaiul feei (DIFS) i distana de la spaiul fe ei (DFFS).
N
Fig. 7.3. (a). Descompunerea lui R n subspaiul principal F sale i complementul ortogonal
F pentru o densitate Gaussian. (b). Spectrul de valori proprii tipice i mprirea acestora n cele
dou subspaii ortogonale.
n cel mai simplu caz, P( | ) este o densitate Gaussian. Astfel cum rezult de la
Moghaddam i Pentland probabilitatea complet estimat n acest caz, poate fi scris ca produsul a dou
densiti marginale Gaussiane independente.
PF (|) este densitatea marginal adevrat n F; ^
PF ( | ; este densitatea
n cazul n care
F y i = Ti sunt componente principale ale , i ( ) este
marginal estimat n ;
PCA eroarea reconstrucie (ecuaia 1). Valoarea de informaii teoretice optime pentru densitatea
parametrul de zgomot este derivat prin divergena minimizri Kullback-Leibler (KL) i poate fi
Acesta este un caz special recent, mai general modelul de analiz factorial se nume te
probabilistica PCA (PPCA), propus de Tipping i Bishop. n formularea lor, expresia de mai sus
pentru este soluia de probabilitate maxim a unui model variabil latent, n contrast cu soluia
minimal divergent obinut de Moghaddam i Pentland.
F
n practic, cele mai multe dintre valorile proprii ale lui nu pot fi calculate datorit
datelor insuficiente, dar ele pot fi estimate, de exemplu, prin folosirea unei funcie neliniare de partea
disponibil a spectrului de valori proprii i estimarea medie a valorilor proprii dincolo de subspaiu
principal . Fractal legea spectrelor de putere de forma f n sunt considerate a fi fenomene tipic
"naturale" i sunt adesea o alegere bun pentru descompunerea natural a eigenspectrului, dup cum
este ilustrat de figura 7.3b.
F
componentele F i i apoi clasarea exemplelor n funcie de valoarea n ec. (6).
Unde
este difuzat n clasa matricii, m este numrul de subieci (clase) n baza de date. Intuitiv, FLD gsete
proiecia de date n clasele sunt cele mai liniar separabile. Se poate arta c dimensiunea lui este la
cel mai m - l.
Deoarece, n practic
Sw este de obicei singular, algoritm Fisherfaces reduce n primul
rnd dimensionalitatea datelor cu PCA, astfel ecuaia (8) poate fi calculat i apoi se aplic FLD a
reducnd n continuare dimensionalitatea la m -1. Recunoaterea este apoi realizat de un clasificator
NN n acest subspaiu final. Experimenele raportate de Belhumeur et al. [2] au fost efectuate pe seturi
de date care conin imagini frontale de 5 persoane, cu variaii de iluminat drastice i un alt set cu fete
de 16 persoane cu diferite expresii i schimbri drastice de iluminare din nou. n toate experimentele
raportate Fisherfaces atinge o rat de eroare mai mic ca eigenfaces.
Fig. 7.4. Diagrame de flux de semnal pentru calculul similarit ii g ntre dou imagini. (a). Eigenfaces
original. (b). Similitudine Bayesian. Imaginea Diferena este oglindit prin ambele seturi de
(intra/extra) eigenfaces pentru a obine cele dou probabilit i.
(=
I j I k ). Se pot defini dou clase de imaginii faciale variate: variaie intrapersonal I
(corespunztoare, de exemplu, la diferite expresii faciale i iluminri ale aceluiai individ) i variaie
E
extrapersonal (corespunztoare variaiilor ntre persoane diferite). Msura similitudini S()
poate fi apoi exprimat n termeni de probabilitate a posteriori intrapersonal a , aparinnd lui
I i dat de regula Bayes.
E .
Densitile ambelor clase sunt modelate ca dimensiuni mari Gaussiane, folosind o metod
PCA de baz eficient descrise n seciunea 2.2.
Metodele PCA, Gaussians sunt cunoscute pentru dobndirea doar a unui subspaiu din zona
imaginii (spaiu feei); astfel, doar vectorii proprii de top ai densitilor gaussiene sunt relevan i pentru
modelare. Aceste densiti sunt utilizate pentru a evalua similaritatea n ecuaia. (9). Calculul
similitudinii implic scderea n primul rnd mic orarea imaginii de studiu I dintr-o baz de date de
I j . Rezultatul al imaginii este apoi proiectat pe vectorilor proprii extrapersonali
exemple
gaussieni i, de asemenea, pe vectorii proprii intrapersonali gaussiani. Exponentiale sunt calculate,
normalizate, i apoi combinate ca n ecuaia. (9). Aceast operaiune este reiterat pe toate exemplele
din baza de date, i exemplul care atinge punctajul maxim de siminitudine este considerat asemntor.
Pentru baze de date mari, astfel de evaluri sunt costisitoare i este de dorit s se simplifice prin
transformri off-line.
sunt preprocesate, cu transformri de albire. Fiecare imagine este convertit i stocate ca un set de doi
y y
coeficieni albii ai subspaiului: I pentru spaiu intrapersonal i E pentru spaiu
extrapersonal
X VX
unde i sunt matricile celor mai mari valorilor proprii i vectorii proprii, respectiv, ai
lui
X (X fiind un simbol nlocuit de I sau E).
Dup aceast preprocesare, evaluarea Gaussian poate fi redus la simple distanele euclidiene
ca n ecuaia (12). Numitorul fiind, desigur, precalculat. Aceste probabilita i sunt evaluate i folosite
pentru a calcula maxima posterioar (maximum a posteriori MAP) similitudinii S() n ecuaia (9).
Abordarea descris mai sus necesit dou proiecii a vectorului diferen , din care
probabilitatea poate fi estimat pentru masura de asemanare Bayesian. Fluxul de calcul este ilustrat n
figura 7.4b. Etapele de proiecie sunt liniare n timp ce calculul posterior este neliniar. Datorit
proieciilor PCA duble, necesare, aceast abordare a fost numit o tehnic "dual eigenspace". Proiecia
Un exemplu ICA de baz este prezentat n Figura 7.5, unde se calculeaz un set de puncte
3D. Subspaiu recuperat 2D de ctre ICA pare s reflecte distribuirea datelor mult mai bine dect
subspaiul obinut de PCA. Un alt exemplu ICA de baz este prezentat n figura 7.8b unde vedem doi
vectori nonorthogonali neordonai IC, dintre care unul este aproximativ aliniat cu primul vector
component principal n figura 7.8a, (de exemplu, direcia de variaie maxim ). Reinei c actuala
structur statistic independent non-Gaussian a exemplului prezent este minim i acesta este
succesul lui ICA n recuperarea modurilor principale de date.
ICA este stns legat de problema separrune semnalelor surs (blind sourse separation)
descompunerea semnalului de intrare (imagine) x ntr-o combinaie liniar (amestec) a semnalelor din
Algoritmul ICA ncearc s gseasc matricea amestecat A sau matricea separat W ,astfel nct
T T T
u =W x = A s . Unde datele rezult din analiza lui M cu N variabile, intrarea lui ICA este
dispus ntr-o matrice X=NM.
Bartlett a investigat utilizarea procedurii ICA pentru recunoaterea feei n dou arhitecturi
fundamental diferite:
Arhitectura I Rndurile S sunt imagini independente de baza, care sunt combinate cu poten ialul
imaginilor de intrare X. nvarea W ne permite de a estima imaginile de baz n rndurile lui U. n
practic, datorit calculului uor, PCA este iniial utilizat la datele de intrare X pentru a gsi cele mai
bune K eigenfaces ; acestea sunt aranjate n coloanele unei matrici E. Apoi ICA se realizeaz pe
T
E , unde imaginile sunt variabile, i valorile pixelilor sunt observaii. Fie C o PCA matrice
T
coeficient, care este, X = C E . Apoi k imaginii independente de baz ICA (Fig. 7.6, sus) sunt
T 1
estimate pe rnduri de U = W E i coeficieni datelor calculate de X = E W U.
n general, datele de baz obinute cu Arhitectura I reflect mai multe proprieti locale ale
feelor, n timp ce datele de baz n Arhitectura II au proprieti la nivel global i mult mai mult
seamn cu chipurile (Fig. 7.6).
Metodele de analiz liniar discutate mai sus s-au dovedit a fi adecvate atunci cnd prezint,
iluminarea sau expresia fixat pe feele din baza de date. Atunci cand oricare dintre ace ti parametri
variaz, reprezentarea liniar a subspaiului nu capteaza schimbri bune. O abordare alternativ,
multilinear, numit "tensorfaces," a fost propus de ctre Vasilescu i Terzopoulos.
netezii acest tensor (de exemplu, pentru a rearanja elemente ntr-o matrice): Rndul i din tensorul A se
ai , ,i
obine prin concatenarea tuturor elementelor din A de forma 1 s1 ,i ,is + 1 , ,in .
Fig. 7.7. Tensorfaces. (a). Datele tensorului; cele patru dimensiuni vizualizeaz identitatea, prezint
iluminri, i vectorul pixel. Cea dea cincea dimensiune corespunde expresie (doar la subtensor este
pentru afiarea expresiei neutre). (b). Descompunerea Tensorfaces.
Conform acestei definiii, Vasilescu i Terzopoulos au propus un algoritm numit n-mode SVD,
care descompune n n-dimensiuni tensorul A
Rolul tensorului de baz Z n aceast descompunere este similar cu rolul valorii singulare a
matricii din SVD (ecuaia 4): Ea reglementeaz interaciunile dintre forma matricilor
un
N p Nv Ni Ne N tensor de ordinul 5. Figura 7.7a ilustreaz acest concept: Numai patru
dimensiuni sunt prezentate; pentru a vizualiza pe a cincea (expresie), imaginai-v c tensori celor
patru dimensiuni pentru diferite expresii sunt stivui i.
exemplu, coloanele
Ne N e ale matrici
Ue acoper spaiul parametrilor de exprimare.
U pixels
Coloanele matricii acoper spaiu imaginii; acestea sunt exact caracteristicile specifice ale
feelor ce ar fi obinute direct de PCA privind ntregul set de date.
B v ,i , e
matrici poate fi obinut prin indexare lui B pentru v, i, e i aplatiznd rezult
unde
c j este rndul j al vectorului U p .
c v .i . e
Avnd n vedere o imagine de intrare x, vectorul coeficientului pretendent este
calculat pentru toate combinaiile de vizualizare, expresie, i iluminare, cu ajutorul ecuaieia (18).
Recunoaterea se realizeaz prin gsirea valoarii j ca o potenial distan euclidien minim ntre c i
vectorii
cj n toate cazurile de iluminre, expresii faciale i unghiuri de vizualizare.
Vasilescu i Terzopoulos au raportat experimene care implic datele tensorului constnd din
imagini din
Np = 28 subieci fotografiai, n condiii de iluminare
Ni = 3 din
Nv =5
Ne
unghiuri de vizualizare cu = 3 expresii ale feei diferite, imaginile au fost redimensionate i
trunchiate, astfel nct acestea conin N = 7493 de pixeli. Performana tensorfaces este semnificativ
mai bun n raport cu cea a eigenfaces standard descris n seciunea 2.1.
3 Subspaii neliniare
n aceast seciune vom descrie o serie de tehnici care nu presupun c principale varia iuni
liniare.
Fig. 7.8. (a). PCA de baz (liniar, ordonat, i ortogonal) (b). ICA de baz (liniar, neordonate, i
nonorthogonal), (c). curba principal (varieti neliniare parametrizate). Cercul arat datele medie.
Definiia calitilor varietilor principale neliniare este c imaginea invers a variet ii spaiul
original este o suprafa dimensional mic neliniar (curbat), care "trece prin mijlocul
RN
datelor", minimiznd n acelai timp suma distanei totale ntre punctele datelor i proieciile lor pe
acea suprafa. Adesea se face referire la curbe principale , aceast formulare este n esen o regresie
neliniar asupra datelor. Un exemplu de curb principal este prezentat n figura 7.8c.
Una dintre cele mai simple metode de calcul neliniar al variet i principale este un algoritm
neliniar PCA (NLPCA) ce st la baza unei reele neuronale multistrat (autoencoder) utilizat pentru
reducerea dimensinaloti aa cum se arat n Figura 7.9. "Gtuirea" straturilor neuronale formeaz o
reprezentare de mici dimensiuni multiple printr-o funcie de proiecie neliniar f (x), implementat ca
o sum-de-sigmoids ponderat. Rezultatul componentelor principale y au o cartografiere invers cu o a
funcie de reconstrucie neliniar similar g (y), care reproduce datele de intrare ct mai exact posibil.
Algoritmul NLPCA calculat de ctre o astfel de reea neuronal sigmoidal multistrat este echivalent
(cu anumite exceptions) cu suprafa principal din definiia general. Pentru a rezuma, proprietile
principale ale NLPCA avem
proieciile neliniare corespunztoare ale reconstrucie aproximative, i de obicei nu naintea
cunotinelor privind structura comun a componentelor respective Curba principal din figura 7.8c a
fost generat cu straturile 2-4-1-4-2 ale unei reele neuronale de tipul celei prezentate n Figura 7.9.
Observati cum curba potenialelor principale are o reprezentare compact, relativ exact a datelor, n
contrast cu modele liniare (PCA i ICA).
Fig. 7.9. Reea neuronal Autoasociativ ("gtuit") pentru calcul variet ii principale y
k
R de
la intrarea spaiului, x
N
R .
n ( w n w n ) = 1.
de extindere respectivi,
Ulterior, componentele principale KPCA ale oricrui vector de intrare pot fi eficient calculate
Vn
PCA, vectorii proprii pot fi clasificai n funcie de ordinea descresctoare a valorilor proprii
T
n i proiecia d-dimensional a imaginii varietate x este y = ( y 1 , , y d ) , cu componente
individuale, definite de ecuaia. (25).
Un avantaj semnificativ al KPCA peste reele neuronale i curbele principale este c acest
KPCA nu are nevoie de optimizare neliniar, nu este supus overfitting-ului, i nu necesit cunotine
anterioare de arhitectura de reea sau de numrul de dimensiuni. n plus, spre deosebire de algoritmul
tradiional PCA, se pot folosi mai multe proiecii de eigenvectori dect dimensionalitatea datelor de
intrare (deoarece KPCA, se bazeaz pe matricea K, numrul vectorilor proprii sau caracteristicile
disponibile au valoarea T). Pe de alt parte, alegerea optim a nucleului (i a parametriilor asocia i)
2 2
rmne o "problem de inginerie." Nucleele tipice includ Gaussienele exp (x ix j ) ,
x
polinomialele ( i x j )
d
i sigmoidele tanh (a (
x i x j ) + b), toate satisfac teorema lui
Mercer.
Similar cu derivarea lui KPCA, se poate extinde metoda Fisherfaces prin aplicarea FLD n
spaiul caracteristic. n experimentele pe dou seturi de date care conineau imaginii ntre 40 i
respectiv 11 subieci, , cu diferite prezentri, la scar, i iluminare, acest algoritm de performan a
artat n mod clar superioaritatea celorlalte adic: ICA, PCA, i KPCA i oarecum mai bun dect cea
a Fisherfaces standard.
realizare a decis reducerea rezoluiei cu un factor de 16. Prin urmare, fe ele aliniate n setul de date au
Rezultatele obinute au fost validate de cinci ori cu metoda de analiz Cross-Validation (CV).
Setul total de date de 1829 chipuri (706 indivizi unici i 1123 probe colective) a fost mprit n cinci
subseturi aleatorii unice de persoane fizice i probele asociate acestora. Fiecare subset cuprinde att
imagini galerie ct i probe ale aproximativ 140 de indivizi unici. Pentru fiecare dintre cele cinci
subseturi, aciunea de recunoatere a fost dispus corect celor 140 de probe multiple din galeria
feelor, utiliznd celelalte patru subseturi ca date de antrenare. De re inut este faptul c, cu N = 252 i
folosind 80% din ntregul set de date de antrenare, exist aproape de trei ori mai multe mostre de
instruire dect dimensionalitatea datelor; astfel, parametri estimrilor (pentru PCA, ICA, KPCA, i
metoda Bayesien) au fost corespunztori.
Rezultat celor cinci studii experimentale au fost adunate pentru a calcula medie i deviaia
standard a ratelor de recunoatere pentru fiecare metod. Faptul c seturile de antrenare i de testare nu
au avut nici o suprapunere n privina identitilor individuale a dus la o evaluare a algoritmilor
generalizarea performan-abilitatea de a recunoate noi indivizi care nu au fcut parte din galeria de
calcul sau modelarea densitii cu setul de antrenare.
Pentru recunoaterea ICA de baz (Arhitectur II, a se vedea seciunea 2.5) doi algoritmi de
baz de ordinul patru cumulani exprimai de: algoritmul "JADE" al lui Cardoso i algoritmul fixed-
point al lui Hyvarinen i Oja. Ambii algoritmi sunt un PCA in etap de inobilare ("sphering"), precedat
de descompunerea algoritmului de baz ICA. Algoritmul corespunztor nonorthogonal JADE derivat
din ICA de baz este prezentat n figura 7.10d. Similar fe ele de baz au fost obinute cu metoda lui
Hyvarinen i Oja. Aceste fee de baz sunt coloanele matricei A din ecuaia (14), i combinarea lor
liniar reconstituie datele de antrenare. Proiecia variet ii ICA a setului de test a fost obinut folosind
y= A1 x. Asemnarea celui mai apropiat vecin cu ICA folose te norma euclidian L2 care are o
rat medie de recunoatere de 77.30%, cea mai mare rat fiind 82.90% (Tabelul 7.1). Exist o mic
diferen ntre cei doi algoritmi ICA i remarcm faptul c ICA a dus cea mai mare variaie de
performan n cele cinci studii (7.66% SD). Ratele recunoateri medi de baz nu sunt clare dac ICA
ofer un avantaj sistematic asupra lui PCA sau dac "mai multe non-Gaussiane" i / sau componente
"mai independente" duc la o mai bun varietate n scopul recunoateri cu acest set de date.
Rezultatele experimentale ale lui Bartlett cu feele FERET a favorizat ICA peste PCA. Acest
dezacord aparent poate fi conciliat dac lum n considera ie diferite configurri experimentale n
alegerea msurii de similitudine. Feele din acest experiment au fost selectate mult mai strict,
nemailsnd informaii cu privire la pr i forma feei, i cu o rezoluie mai sczut, factorii care
atunci cnd sunt combinai pot face sarcina recunoateri mult mai dificil.
Al doilea factor este alegerea funciei distana folosit pentru a msura similaritate n
subspaiu. Aceast chestiune a fost analizat n continuare de ctre Draper. Cele mai bune rezultate
pentru ICA sunt obtinute cu ajutorul distanei cosinus, n timp ce pentru eigenfaces metrica L1 pare a
fi optim; cu metrica L2, care a fost, de asemenea, utilizat n experimente, performana lui ICA
( Arhitectura II) a fost similar cu cea a eigenfaces.
Tabelul 7.1. Preciziile Recunoaterii cu k = 20 proiecii ale subspaiului folosind validarea de cinci ori.
Rezultatele sunt n procente
E
7.10b) i (Fig. 7.10a) a folosit densitile estimate ale unui dublu PCA de baz P ( |
I ) i P ( |
E ) . Acestea au fost modelate att ca un singur Gaussians cu dimensiunile
Fig. 7.11. Recunoaterea performanelor varietilor lui PCA, ICA, i KPCA versus asemnarea
Bayesian (MAP) similarity cu subspaiu dimensional k = 20. Linia punctat indic performana de a
potrivi cel mai apropiat vecin, cu vectori imagine de dimensiuni maxime.
Fig. 7.12. Precizia Recunoateri R(k) din PCA, KPCA, i Bayesian similarity cu creterea
dimensionalitii k subspaiului principal. Rezultatele ICA, care nu sunt prezentate, sunt similare cu
cele ale APC.
I ) i respectiv P ( | E ). Reinem c k I
pentru P (
+k E = 20, se aseamn
|
astfel cu numrul total de proiecii utilizate de trei tehnici principale multiple. Utiliznd la maxim a
posteriori (MAP) similitudine n ecuaia. (9), tehnica de asemnare Bayesian a dat o rat de
recunoatere medie de 94.83%, cu cea mai mare rata de atins fiind 97.87% (Tabelul 7.1). Deviaia
standard a celor cinci partiii pentru acest algoritm a fost, de asemenea, cel mai mic (1,96) (Fig 7.11).
metodele sunt folosite pe acelai numr de proiecii ale subspaiului. Acest test a fost premis pentru
unul dintre punctele-cheie investigate de Moghaddam: Avnd n vedere acelai numrul de proiecii
ale subspaiului, care dintre aceste tehnici este mai bun pentru modelarea datelor i recunoaterea
ulterioar? Prezumia este c prelucrarea cu cea mai mare rat de recunoatere i cu cea mai mic
dimensiune este de preferat.
Pentru acest test special de dimensionalitatea, setul datelor totale de imagini 1829 a fost
mprit (split) n jumtate: un set de 353 imagini de antrenare ale galeriei (selectate aleatoriu),
mpreun cu 594 probe de testare corespunztoare i un set care conine restul de 353 imaginile ale
galeriei corespunztoare celor 529 probe. Seturile de antrenare i de testare nu au avut nici o
suprapunere n ceea ce privete identitatea persoanelor fizice. Ca i n experimen ele anterioare,
probele de ncercare au fost adaptate la imaginile galeriei pe baza proieciilor (sau densitii), calculate
cu setul de antrenare. Rezultatele acestui experiment sunt prezentate n figura 7.12, care exemplific
ratele de recunoatere funcie de dimensionalitatea subspaiu k. Aceasta este o comparaie mai
relevant de performan relativ a metodelor, ca compactitate de varietati definite de cea mai mic
valoare acceptabil a lui k care este un element important n ceea ce privete att eroare de
generalizare (overfitting) ct i cerinele de calcul.
4.6 Disctii
8% peste KPCA). Reinem c rezultatele testului de dimensionalitate din figura 7.12 indic faptul c
KPCA surclaseaz PCA cu o marj de 10%, doar cu cteva componente principale. Cu toate
acestea, asemnarea Bayesian atinge 90% cu doar patru proiecii dou pentru fiecare P( |
i domin att PCA i KPCA pe ntregul interval de dimensiuni al subspaiului, figura 7.12.
5 Metodologie i utilizare
n special, abordrile menite s ia n calcul aspectul imaginilor diferite dintr-o baz de date. V
prezentm, de asemenea, o serie de extensii i modificri ale metodelor de subspaiu.
Fig. 7.13. Parametrice versus metode eigenspace de baz. (a). Reconstrucii a imaginii de intrare
(stnga) cu parametrice (mijloc) i vizualizare eigenspaces de baz (dreapta). Sus imagini de
antrenare; jos: imagine probe (test). b. Diferene ntre cele dou abordri ale variet i de control.
Cheia diferenei dintre vizualizrile de baz i parametrice poate fi neleas prin luarea n
considerare a geometriei spaiului feei, ilustrat n figura 7.13b. n spaiul vectorial de dimensiuni
lrgite a unei imagini de intrare, antrenarea imaginilor de fe e cu multiple orientri ale pozi iei sunt
reprezentate de un set C de regiuni distincte, fiecare definit prin dispersia indivizilor M. Exist mai
multe vizualizri a formei nonconvexe a fe ei n regiuni din spaiul imagini. Prin urmare, ansamblul
rezultat este o varietate extrem de complex i nonseparabil.
Varietatea principal
vc din fiecare regiune c este extras separat. Relevante aici este faptul
c prin analogie se poate modela o distribuie complex de a unui singur cluster prin unirea mai multor
clustere componente. Desigur, aceast din urm vizualizare de bas poate produce la o reprezentare
mai precis a geometriei de baz.
Abordarea vizualizrii de baz a fost evaluat pe date similare cu cele prezentate n figura
7.14, care au constat din 189 imagini: nou puncte de vizualizare ale 21 de persoane. Puncte de
vizualizare au fost repartizate uniform de la 90 la + 90 de-a lungul planului orizontal. n
prima serie de experimente, performana interpolrii a fost testat pe un subset de antrenare de puncte
de vizualizare disponibile ( 90, 45, 0) i testarea pe punctele de vizualizare intermediare ( 68 ,
23 ). Astfel s-a obinut o rat de recunoatere medie de 90%. O a doua serie de experimente a fost
testarea performanei extrapolri pe un set de antrenare al punctelor de vizualizare (de exemplu,
90 la + 45) i testarea pe noile puncte de vizualizare n afara intervalului de antrenare
(de exemplu, + 68 i + 90). Pentru testarea vizualizrii separate din gama de antrenare,
23 rata medie de recunoatere a fost de 83%. Pentru unghiuri de vizualizare de test de 45, rata
medie de recunoatere a fost de 50%.
Fig. 7.15. Eigenspaces modular. (a). patch-uri dreptunghiulare ale cror aspecte sunt modelate cu
eigenfeatures. (b). Performana lui eigenfaces, eigenfeatures, i o combinaie a ambelor stratificate n
funcie de dimensiunea subspaiului.
Figura 7.15b arat ratele de recunoatere n funcie de numrul de vectorilor proprii doar
pentru eigenface, doar eigenfeature, i reprezentarea combinat. Ceea ce este surprinztor este faptul
c (pentru acest set de date cel puin mici) doar eigenfeatures erau suficiente pentru a atinge o rat de
recunoatere (asimptotic) de 95% (egal cu cea a eigenfaces).
Cu toate acestea, un set mare de imagini conin n ele mai multe informaii dect fiecare
imagine individual: Acestea ofer indicii nu numai pe aspectul posibil de pe o fa a cuiva, ci, de
asemenea, pe modelele tipice de variaie. Din punct de vedere tehnic, un set de imaginii cunoscute
care conin fata unui individ permit un subspaiu intrinsec estimat o pentru a reprezenta acel individ,
astfel nct setul de intrare neetichetat conduce la estimarea subspaiului care reprezint obiectul
necunoscut. Sarcina de recunoatere poate fi apoi formulat n termeni de asemnare a subspatiilor.
Una dintre primele abordri la aceast sarcin a fost metoda reciproc a subspaiului (mutual
subspace method-MSM), care extrage subspaiul principal liniar al unei dimensiuni fixe (prin PCA) i
msoar distana dintre subspaii prin intermediul unor unghiuri principale (unghiul minim dintre
oricare doi vectori din subspatii). MSM are caracteristica dorit de acesta construind un model
compact de observaii distribuite. Totui, se ignor caracteristicile statistice importante ale datelor, ca
valorile proprii corespunztoare ale componentelor principale, precum i mijloacele de probe care sunt
luate n considerare prin comparaie. Astfel, deciziile sale pot fi statistic sub nivelul optim.
po , rezolvarea ecuaia.
Prin urmare, avnd n vedere un set de imagini distribuite de ctre
(26) const n alegerea optim ntre ipotezele M sub form de statistici denumite uneori ipotezele celor
doua probe: adic dou seturi de exemple provin din aceeai distribuie. O modalitate de principiu de a
rezolva aceast sarcin este de a alege ipoteza j pentru care divergena Kullback-Leibler ntre
po i
p j este minimizat.
n realitate, distribuiile
pj sunt necunoscute i trebuie s fi estimate din date, precum i
po . Shakhnarovich a modelat aceste distribuii ca Gaussiane (unul pe subiect), care sunt estimate
n conformitate cu metoda descris n seciunea 2.2. Divergen KL este apoi calculat n form
nchis. n experimenele efectuate, aceast metod a depit n mod semnificativ MSM.
Modelarea distribuiilor de ctre un singur Gaussian este oarecum restrictiv; Wolf i Shashua
a extins aceast abordare i a propus o metod neparametric discriminativ: nucleul principal al
unghiurilor. Ei au inventat un nucleu definit pozitiv care opereaza pe perechi de matrici de date prin
proiecia datelor (coloane) ntr-un spaiu caracteristic de dimensiune arbitrar, n care unghiuri
principale pot fi calculate prin calculul produselor interioare dintre exemple (de exemplu, de aplicare a
nucleului) . Aceast abordare corespunde subspaiului de analiz neliniar din spaiul original; de
exemplu, se pot utiliza nucleele polinom de grade arbitrare. n experimentele care a inclus o sarcin de
recunoatere a feei pe un set de nou subiecii, aceast metod a depit n mod semnificativ att
MSM i modelul Gaussian-based KL-divergence al lui Shakhnarovich.
6 Concluzie
Metodele Subspace s-au dovedit a fi un mare succes n recunoaterea feei, deoarece sunt
folosite n multe activiti de viziune. Exist dou direcii mai notabile de evoluie : (1) trecerea de la
liniar la general, eventual neliniare, i varieti deconectate; i (2), introducerea de metode
probabilistice n special Bayesiane care se ocup cu incertitudinea i cu similitudinea. Toate aceste
metode mprtesc aceeai ipotez de baz: c fenomene vizuale aparent complexe cum ar fi imagini
de chipuri umane, reprezentate ntr-un spaiu de msurare de nalt-dimensionale, sunt adesea
intrinseci n spaiu de mic-dimensionalitate. Exploatarea acestui spaiu de dimensionalitate redus
permite un sistem de recunoatere a feei, cu calcule simple i concentrarea ateniei asupra
caracteristicilor datelor relevante pentru identitatea unei persoane.