Sunteți pe pagina 1din 48

Capitolul 1

Aplicaii biometrice. Recunoaterea feelor

1.1 Recunoaterea feelor 1.2 Algoritmi de recunoatere a feelor 1.3 Aplicaii ale algoritmilor de recunoatere a feelor 1.4 Discuie asupra sistemelor biometrice

CAPITOLUL 1: RECUNOATEREA FEELOR Identitatea unei persoane este reprezentat nu de actele oficiale pe care le deine,

ci de un set extins, complex, variabil n timp i nu ntotdeauna uor de definit de trsturi personalizate, de natur anatomic, fiziologic sau comportamental. Unele dintre aceste trsturi (considerate izolat sau sub forma unor combinaii) pot fi folosite, mpreun cu tehnici automate de procesare a semnalelor, pentru implementarea aa-numitelor sisteme biometrice, capabile s recunoasc sau s valideze autenticitatea identitii unor persoane. Drept informaii biometrice se utilizeaz n mod curent amprentele, vocea, faa, irisul, forma geometric a minii. Spre deosebire de modalitile tipice de identificare precum legitimaiile, cheile, parolele sau codurile PIN (Personal Identification Number), informaiile biometrice nu pot fi pierdute, furate sau uitate (ns uneori pot fi reproduse cu acuratee suficient pentru a pcli sistemele automate de recunoatere). Pentru definirea i msurarea performanelor trebuie avute n vedere urmtoarele elemente ce compun un sistem biometric ideal: toi membrii populaiei posed caracteristicile pe care sistemul le identific fiecare semntur biometric a unei persoane difer de semnturile tuturor celorlalte persoane din populaia supus analizei semntura biometric nu variaz semnificativ n funcie de condiiile particulare n care este extras (obinut) sistemul rezist tentativelor de fraudare a semnturilor Metodologiile de evaluare a sistemelor biometrice cuantific msura n care sistemele reale se apropie de aceste cerine ideale. Sunt avute n vedere dou clase de aplicaii, de identificare (recunoatere), respectiv de verificare (autentificare): - ntr-un sistem de identificare (recunoatere), semntura biometric a unei persoane necunoscute este prezentat la intrarea sistemului, urmnd a fi comparat cu cele disponibile ntr-o baz de date alctuit din semnturi ale unui set de persoane cunoscute. Sistemul furnizeaz ca rspuns identitatea persoanei din baza de date a crei semntur seamn cel mai bine conform unei distane (metrici) definite adecvat! cu cea a persoanei necunoscute (n principiu exist i posibilitatea ca sistemul s decid c persoana necunoscut nu seamn cu nimeni din baza de date, dac distana minim depete totui o anumit valoare de prag).

1.1 Recunoaterea feelor

Ca exemple amintim situaiile n care poliia urmrete identificarea unui infractor pe baz de amprente sau fotografii, precum i situaiile n care aceeai persoan ncearc s depun n mod fraudulos mai multe documentaii n vederea obinerii unor avantaje materiale (de exemplu, depunerea a mai multor dosare de obinere a paaportului sau a carnetului de conducere). - ntr-o aplicaie de verificare, o persoan prezint semntura sa biometric i pretinde c are identitatea care corespunde acelei semnturi, pe baza creia vrea s obin dreptul de acces ntr-un spaiu sau la anumite resurse restricionate. Sistemul poate accepta sau respinge aceast cerere, respectiv poate furniza un grad de ncredere asupra validitii identitii pretinse. Ca exemple practice putem meniona autentificarea identitii n tranzaciile bazate pe utilizarea cardurilor, precum i accesul restricionat la anumite calculatoare sau incinte de cldiri. Este important de subliniat c indicatorii de performan utilizai n sistemele de verificare difer net de cei utilizai de sistemele de identificare (recunoatere). Astfel, calitatea unui sistem de identificare este msurat de procentajul de rspunsuri corecte dintr-un numr suficient de mare de teste. De exemplu, pentru identificarea unui suspect, poliia utilizeaz o baz de date n format electronic ce conine fotografii pentru un numr foarte mare de infractori. Un test tipic const n furnizarea la intrarea sistemului a fotografiei unei persoane necunoscute, iar rspunsul sistemului const ntr-o list sortat de fotografii (sortat de regul n ordine descresctoare a gradului de similaritate cu imaginea persoanei necunoscute). Astfel, indicatorul de performan avut n vedere este procentajul de situaii n care identitatea persoanei necunoscute se regsete cu adevrat printre primele k rspunsuri ale sistemului (tipic, k=5). Pe de alt parte, n cazul sistemelor de verificare, se utilizeaz n mod tradiional dou tipuri de erori: rat fals de rejecie (False Reject Rate) rat fals de acceptare (False Acceptance Rate) O rejecie fals apare cnd sistemul refuz o identitate valid, iar o acceptare fals apare atunci cnd sistemul accept o identitate fals. ntr-un sistem biometric ideal, ambele rate de erori ar fi zero. n practic, sistemele realizeaz un anumit compromis. De regul, sistemele se proiecteaz pentru a avea o valoare fixat a

CAPITOLUL 1: RECUNOATEREA FEELOR

ratei de acceptare fals, ce va conduce n mod corespunztor la determinarea valorii ratei de rejecie fals. Alegerea acestor parametri depinde de aplicaia avut n vedere. Astfel, la cititoarele de carduri (ATM), rata de rejecie fals va fi aleas mic pentru a nu crea disconfort clienilor de bun credin. Pe de alt parte, n situaiile de acces restricionat n anumite spaii, factorul principal avut n vedere va fi alegerea unei rate false de acceptare ct mai mici. Recent a fost propus o generalizare a aplicaiilor de verificare denumit generic watch list, n care verificarea identitii unei persoane necunoscute se efectueaz n raport cu o list de persoane suspecte i nu fa de o singur persoan. Arhitectura unui sistem biometric generic include urmtoarele module [18]: a) un senzor utilizat pentru colectarea infomaiilor primare i conversia acestora n format digital b) un algoritm de procesare de semnal care va extrage o semntur biometric adecvat c) o baz de date n care se stocheaz semnturi provenind de la o populaie de subieci d) o procedur de comparaie a semnturii corespunztoare unei persoane necunoscute cu cele stocate n baza de date e) o procedur de decizie (complet automat sau asistat de ctre om) care utilizeaz rezultatul comparaiei anterioare n vederea efecturii unei aciuni. Este important de subliniat c datorit dificultii aplicaiilor biometrice, precum i a cerinelor de performan impuse, se folosesc deseori sisteme complexe, care urmresc recunoaterea/identificarea unei persoane folosind mai multe tipuri de semnturi, de exemplu imaginea feei (sau amprenta) i vocea. Pentru testarea sistemelor biometrice au fost elaborate protocoale de evaluare standardizate. Astfel, pentru recunoaterea feelor, institutul american NIST (National Institute of Standards and Technology) a elaborat standardul FERET (Face Recognition Technology) i a efectuat de asemenea evaluri ale tehnologiei de recunoatere a vorbitorului. De regul, astfel de evaluri fac obiectul unor competiii deschise att companiilor ct i universitilor i sunt coordonate de ctre un grup de experi independeni.

1.1 Recunoaterea feelor

1.1 Recunoaterea feelor


Faa joac un rol esenial n relaiile sociale, n comunicarea identitii i a emoiilor. C apacitatea umana de a recunoate feele este remarcabil: putem recunoate mii de figuri nvate de-a lungul vieii i identifica feele familiare dintr-o singur privire chiar dup ani de zile. Aceast capacitate este destul de robust, n ciuda schimbrilor mari n stimulul vizual datorate condiiilor de vizualizare, expresiei, mbtrnirii i altor factori perturbatori precum prezena ochelarilor, a brbii sau schimbri ale coafurii. Ca urmare, acest subiect a fost n centrul ateniei unor grupuri numeroase de cercettori din ntreaga lume n ultimele dou decenii i a ptruns de curnd i n circuitul comercial: se estimeaz c piaa aplicaiilor biometrice va depi 2 miliarde $ pn la sfritul lui 2006, ajungnd la aproximativ 5.5 miliarde $ n 2010, cu o rat de cretere anual de aproximativ 25% [8]. Pe de alt parte, n ciuda numeroaselor soluii originale raportate n literatur, tehnicile actuale sunt nc departe de a oferi nivele de performan acceptabile pentru introducerea acestor tehnologii n domenii sensibile precum controlul identitii cltorilor n aeroporturi sau controalele vamale. Dei atractiv deoarece nu presupune contact direct ntre subiect i senzor (se spune c este o tehnic neinvaziv), recunoaterea feei este o sarcin dificil datorit surselor numeroase de variabilitate n condiii reale. Acestea includ printre altele: orientarea feei n raport cu aparatul de fotografiat sau camera de filmat, nivelul de iluminare, expresia feei, timpul scurs ntre momentele prelevrii unor imagini distincte, precum i aspectele demografice (rasa, vrsta, sexul). Asigurarea invarianei n raport cu transformri elementare precum translaia, rotaia sau schimbarea rezoluiei reprezint de asemenea o cerin obligatorie. Schema-bloc a unui sistem generic de recunoatere a feelor se prezint n Fig. 1.1, n care se distinge prezena unui modul de extragere a semnturii specifice fiecrei fee i a unui modul de clasificare, a cror proiectare este de regul corelat. Exist 2 abordri majore pentru a obine informaia caracteristic unei fee, cu avantaje i dezavantaje specifice, ce pot fi folosite pentru extragerea semnturilor de interes att pentru aplicaii de recunoatere ct i pentru cele de verificare, diferene aprnd datorit tipului de clasificator utilizat:

CAPITOLUL 1: RECUNOATEREA FEELOR

Fig. 1.1 Schema-bloc a unui sistem de recunoatere/verificare a feelor

a) algoritmi bazai pe analiza statistic a imaginilor disponibile, al cror scop const n identificarea unei baze reprezentative n raport cu care s poat fi exprimat orice imagine sub forma unei combinaii liniare de vectori ai bazei. Din aceast categorie fac parte metode precum Analiza pe Componente Principale (PCA) [24], Analiza Discriminatorie Liniar (LDA) [2] i Analiza pe Componente Independente (ICA) [1]. b) algoritmi bazai pe msurarea unor trsturi geometrice referitoare la distane ntre puncte semnificative de pe suprafaa feei. Ca exemple putem enumera metodele Elastic Bunch Graph Matching [25] i Local Feature Analysis [19]. Cteva studii recente [9, 28] trec n revist tendinele actuale din acest domeniu, printre care menionm: - extensii de tip nucleu (kernel) ale unor metode clasice de proiecie pe subspaii liniare, care au condus la apariia algoritmilor de tip Kernel PCA/LDA/ICA - algoritmi bazai pe utilizarea unor reprezentri folosind baze cu bun localizare spaial, respectiv metode urmrind descompunerea feelor n componente distincte (gupate n jurul unor puncte reprezentative precum ochii, nasul, gura denumite generic puncte fiduciale) - analiza imaginilor 3D i aplicarea tehnicilor de morfism (care urmresc generarea unor imagini virtuale ale unei persoane pornind de la un set de imagini captate din unghiuri neconvenabile) - un numr semnificativ de articole recente au ca element comun abordarea bazat pe modelarea i aproximarea distribuiei spaiale a imaginilor reprezentnd fee umane sub forma aa-numitelor varieti matematice (manifolds).

1.1 Recunoaterea feelor

Alte aspecte interesante se refer la asigurarea unei tolerane sporite n raport cu numeroasele surse de variabilitate specifice acestor aplicaii (grad de iluminare variabil, poziie, transformri geometrice, acoperire parial), elaborarea unor metode capabile s ofere performane rezonabile n condiiile existenei unor baze de date de dimensiune redus, detecia automat a punctelor fiduciale. nelegerea profund a coninutului informaiei despre imaginile care reprezint fee umane este o cerin fundamental pentru succesul oricrui sistem performant de recunoatere sau verificare i se poate dovedi folositor i n alte aplicaii de recunoatere a formelor (pattern recognition). Enumerm n continuare principalele aspecte critice referitoare la acest subiect, indicate n Fig. 1.2, prezentndu-le ca pe un sumar de ntrebri fundamentale i indicnd soluiile raportate n literatur.

Fig. 1.2 Aspecte specifice aplicaiilor de recunoatere/verificare a feelor

Ce reprezint o fa?
Dac transformm o imagine de dimensiuni NxN pixeli ntr-un vector de dimensiune N2, acesta poate fi privit ca un punct ntr-un spaiu N2 - dimensional. Imaginile reprezentnd fee umane ocup doar un mic subspaiu al acestui spaiu multidimensional, cu caracteristici specifice. Se poate arta c modificrile

CAPITOLUL 1: RECUNOATEREA FEELOR

obinuite precum translaia, rotaia, sau schimbarea nivelului de iluminare, atunci cnd au amplitudine mic, definesc simple subregiuni compacte din subspaiul feelor. Pentru transformri mai generale rotaii mari, acoperire parial, schimbri de scal subregiunile feei devin non-convexe. Un exemplu n acest sens este dat n Fig. 1.3, artnd c o combinaie liniar dintre o fa i versiunea sa rotit nu este o imagine valid a unei fee. n plus, asemnarea dintre imaginea original i versiunea sa transformat se degradeaz rapid odat cu creterea amplitudinii parametrilor ce descriu transformrile respective. n Fig. 1.4 este ilustrat aceast observaie, unde funcia de corelaie este aleas ca o msur a asemnrii dintre vectorii comparai [22]. Datorit atributului non-convex, metodele de procesare a feei bazate pe o singur imagine sunt limitate n performan. Apare acum o ntrebare interesant: de cte imagini bidimensionale (2-D) este nevoie pentru a reprezenta o fa, indiferent de orientarea acesteia? Cteva rspunsuri au fost date n literatur, indicnd faptul c 4 sau 5 imagini sunt suficiente pentru a acoperi toate unghiurile de vedere (alegerea lor este dependent de un set de constrngeri) [3].

Spaiul feelor

Fig. 1.3 Exemplu indicnd non-convexitatea spaiului feelor: imaginea original, versiunea rotit a aceleeai fee, combinaie liniar ntre fee

1.1 Recunoaterea feelor

Fig. 1.4 Asemnarea dintre imaginea original a feei i versiunea ei transformat se deterioreaz rapid pe msura creterii valorii parametrilor ce definesc transformarea: a) translaie pe axa X; b) translaie pe axa Y; c) rotaie; d) modificarea scalei

Care este cea mai distinctiv informaie?


Dup cum s-a menionat anterior, exist 2 strategii majore implicate n obinerea "semnturii" feei, anume: a) tehnica geometric, bazat pe extracia poziiilor relative i a altor parametri dependeni de puncte particulare precum ochii, colurile gurii, nasul i brbia b) tehnica bazat pe modele (templates), n care matricele reprezentnd valorile de intensitate luminoas a pixelilor care alctuiesc faa de test i, respectiv, cea de referin sunt procesate convenabil, urmnd ca rezultatele s fie comparate utiliznd un anumit tip de msur a similitudinii (cteodat sunt folosite mai multe modele pentru fiecare fa). Alegerea procedeului specific de extragere a "semnturii" este dictat de capacitatea distinctiv a informaiei rezultate. Din moment ce imaginile feei sunt reprezentate n mod obinuit printr-o matrice de dimensiuni considerabile, se folosesc diverse metode de compresie, liniare sau neliniare, precum Analiza pe Componente Principale (Principal Components Analysis PCA) pentru obinerea

10

CAPITOLUL 1: RECUNOATEREA FEELOR

unei reprezentri de dimensiuni mult reduse a imaginii originale, fr o pierdere semnificativ a calitii. Mai mult, Analiza Discriminatorie Liniar (Linear Discriminant Analysis LDA) este adesea aleas pentru a identifica direciile din spaiul feelor de-a lungul crora separarea semnturilor este maxim. O abordare original const n organizarea spaiului feelor n mod ierarhic, partiionarea urmnd o structur de tip arbore. Merit notat c tipul de codare a imaginilor originale poate fi de asemenea influenat de necesitatea de a asigura invariana la transformri comune. O direcie recent de cercetare este legat de aa-numitul "optical flow" [15], bazat pe reprezentarea variaiei (gradientului) n intensitate dintre dou imagini distincte ale aceleai persoane. O observaie foarte interesant este legat de reprezentarea imaginilor n domeniul frecven: informaia de faz este mult mai important pentru discriminare (separare) dect cea de amplitudine, dup cum sugereaz exemplul din Fig. 1.5 [21].

Fig. 1.5 a) imagini originale; b) aceeai amplitudine i faz aleatoare; imagini reconstruite utiliznd informaia de amplitudine corect i faza corespunztoare celeilalte persoane

1.1 Recunoaterea feelor

11

Procesare local sau global ?


Modularitatea reprezint o caracteristic fundamental a creierului uman, care a inspirat numeroase studii ale cercettorilor din domeniul neurofiziologiei, dar i al reelelor neurale artificiale. Dintre avantajele fa de structurile nemodulare amintim timpul redus de antrenare, degradarea mai lent a performanelor odat cu creterea complexitii aplicaiei considerate, nelegerea mai comod a rolului jucat de diversele componente ale unui sistem complex. n cazul aplicaiilor de recunoatere a feelor, abordarea modular este strns legat de tehnicile care i propun extragerea unei semnturi bazate pe procesare local, efectuat n jurul unor puncte reprezentative (ochi, nas, gur). n aceast categorie sunt incluse metodele denumite Elastic Bunch Graph Matching [25] i Local Feature Analysis [19], precum i cele bazate pe utilizarea filtrelor Gabor [16]. La polul opus se situeaz aa-numitele metode holistice, care extrag semnturi lund n considerare ntreaga fa. n plus, abordarea modular a fost utilizat i pentru a compensa problemele cauzate de orientarea variabil a capului n raport cu aparatul de fotografiat [20].

Cum se asigur invariana n raport cu transformri elementare ?


Aplicaiile de recunoatere a feei se confrunt cu multe surse de variabilitate, printre care putem enumera orientarea n raport cu aparatul de fotografiat, nivelul de iluminare, acoperirea parial, expresia feei, intervalul de timp care separ momentele de achiziie a unor imagini distincte ale unei aceleeai persoane. Variaiile datorate nivelului de iluminare au atras o atenie deosebit, datorit necesitii de a beneficia de metode robuste de recunoatere inclusiv n cazul imaginilor captate m mediul exterior, nu numai al celor obinute n ncperi cu condiii controlate. Astfel, au fost elaborate analize teoretice asupra subspaiilor generate de imagini supuse iluminrii variabile, identificndu-se numrul minim de surse de lumin distincte necesare pentru a modela o fa indiferent de direcia de iluminare [3]. n plus, sistemele automate de procesare a feelor ar trebui s tolereze ntre anumite limite i prezena unui set de transformri geometrice elementare precum

12

CAPITOLUL 1: RECUNOATEREA FEELOR

translaiile, rotaiile n planul imaginii sau schimbrile de scal. Au fost propuse dou abordri majore pentru atingerea acestui obiectiv: a) algoritmi de procesare care asigur extragerea din imaginile originale a unor trsturi invariante la astfel de transformri. Drept exemple din aceast categorie putem enumera: - funcii de autocorelaie de ordin superior (invarian la translaie) [10] definite prin relaia urmtoare, unde I(r) desemneaz imaginea, iar ai vectori de deplasare n planul P al imaginii:

f (a1,.., a N ) = I (r ) I (r + a1 )...I (r + a N )dr


P

(1.1)

- modulul transformatei Fourier (bidimensionale) a imaginii originale (invarian la translaie) - reprezentarea n coordonate polare a imaginii originale (n realitate, distana unui punct fa de originea sistemului de coordonate se reprezint pe o scal logaritmic, astfel nct reprezentarea este de tip log-polar [11]). Ca urmare, rotaia n planul imaginii, respectiv modificarea scalei de vizualizare (zoom-ul), se vor reduce la apariia unor translaii de-a lungul uneia dintre cele 2 axe. Pentru a asigura invariana n raport cu aceste dou transformri va fi necesar s extragem o informaie invariant doar n raport cu translaia, de exemplu folosind una dintre metodele enumerate anterior. Metoda denumit spectroface [12] extrage trsturi invariante n raport cu toate cele 3 tipuri de transformri elementare, combinnd reprezentarea log-polar cu utilizarea transformatei Fourier. b) efectul aplicrii unei transformri elementare poate fi folosit explicit n definiia distanei utilizate pentru aprecierea similitudinii dintre imagini. Aceast abordare este ilustrat prin metodele bazate pe aa-numita distan de tip tangent [23] i, respectiv, modelele de deformare (Active Appearance Models) [28].

Cum depind performanele de componena spectral i rezoluia de reprezentare ?


O serie de studii indic faptul c frecvenele spaiale joase, respectiv cele nalte joac roluri diferite n privina recunoaterii i concluzioneaz c:

1.1 Recunoaterea feelor - componentele de joas frecven sunt suficiente pentru recunoatere

13

- efectul expresiei faciale poate fi atenuat prin eliminarea componentelor de frecven nalt De obicei tehnicile bazate pe Transformata Wavelet Discret (DWT) sunt folosite pentru a extrage semnturi de frecven joas a feei, ca n exemplul din Fig. 1.6 [11, 12]. Influena rezoluiei de reprezentare asupra ratei de recunoatere a fost de asemenea analizat n literatur i este interesant de semnalat faptul c o rezoluie de numai 32x32 pixeli este suficient pentru a obine performane rezonabile (n fapt, anumite aplicaii precum simpla identificare a genului brbat/femeie necesit chiar rezoluii mai mici).

Fig. 1.6 a) expresie normal; b) reprezentare de joas frecven a expresiei normale dup aplicarea DWT; c) expresie fericit; d) reprezentare de joas frecven a expresiei fericite dup aplicarea DWT

Ce clasificator s utilizm ?
Una dintre cele mai surprinztoare observaii indicate n literatur arat c distanele dintre imaginile unei aceleai persoane care difer prin condiiile de iluminare sau prin orientarea n raport cu aparatul de fotografiat sunt mai mari

14

CAPITOLUL 1: RECUNOATEREA FEELOR

dect distanele dintre imagini ale unor persoane diferite, prelevate ns n aceleai condiii. Aceste observaii transform recunoterea feei ntr-o sarcin foarte dificil, iar proiectarea clasificatorului nu este deloc simpl. Sunt utilizate cu precdere urmtoarele dou strategii: a) regula celui mai apropiat vecin (nearest-neighbor rule): cnd o imagine test este prezentat la intrarea sistemului de recunoatere a feei (care a fost antrenat anterior cu un set de imagini prototip), ieirea este definit prin eticheta prototipului care este cel mai apropiat (conform unei distane (metrici) adecvate) de imaginea de test. n mod obinuit comparaia este fcut lundu-se n considerare nu imaginile originale, ci semnturile extrase prin proceduri specifice, iar alegerea concret a distanei poate fi adaptat aplicaiei considerate. Uneori, o strategie ierarhic se poate dovedi superioar din punctul de vedere al ratei de recunoatere sau robusteii clasificrii. De asemenea, se poate folosi un ansamblu de clasificatoare distincte avnd tipuri diferite de date de intrare. b) reele neurale recurente [4]: sistemele dinamice neliniare pot avea, n anumite condiii, puncte de echilibru stabil n poziii predefinite. Acelor puncte de echilibru le vor corespunde un set de imagini prototip din baza de date de antrenare. Imaginile unor persoane de test, vzute ca versiuni zgomotoase, incomplete sau distorsionate ale imaginilor prototip, vor servi drept condiii iniiale aparinnd bazinelor de atracie ale acestor puncte de echilibru, iar dinamica sistemului va conduce n final la stabilizarea ieirii chiar la valorile vectorilor prototip. Aceast abordare a fost folosit cu precdere n legtur cu strategia de asociere temporal a imaginilor (vederi uor diferite ale aceleeai persoane sunt de regul obinute n strict succesiune temporal). Avantajul unei asemenea abordri n comparaie cu regula celui mai apropiat vecin const n faptul c nu mai este necesar calculul unei distane n raport cu toate imaginile prototip (aspect dificil dac baza de date prototip are dimensiune mare), ns dificultile sunt legate de necesitatea de stocare doar a punctelor de echilibru dorite, nu i a unora false, precum i de capacitatea limitat de memorare a imaginilor prototip. O abordare interesant este legat de aa-numitele reele neurale autoasociative, a cror arhitectur este prezentat n Fig. 1.7: o reea multistrat avnd acelai

1.2 Algoritmi de recunoatere a feelor

15

numr de intrri i ieiri, precum i aceleai date livrate ca intrri i ieiri dorite, este antrenat folosind exemple aparinnd unei singure clase (diferite imagini ale unei aceleai persoane). n faza de testare, o imagine nou este aplicat la intrare, iar eroarea de reconstrucie (distana euclidian dintre intrare i ieire) este folosit ca informaie descriminatorie: dac imaginea aparine clasei corecte (imaginea de test corespunde persoanei ale crei fotografii au fost utilizate pentru determinarea valorilor parametrilor reelei neurale) aceast eroare va fi mult mai mic dect n cazul altor clase. Aceast abordare este folositoare n mod particular n aplicaiile de verificare i rezolv problemele datorate existenei unui numr limitat de fotografii corespunztoare unei aceleeai persoane.

Fig. 1.7 Arhitectura unei reele neurale autoasociative

1.2 Algoritmi de recunoatere a feelor


n literatur au fost propuse numeroase tehnici de recunoatere/autentificare a feelor, cu grade de complexitate, constrngeri, performane i arii de aplicabilitate foarte diverse. n mod special, identificarea, extragerea i ierarhizarea setului de trsturi semnificative care va constitui semntura fiecrei fee supuse analizei continu s reprezinte un subiect de larg interes. Paleta foarte larg de opiuni din aceast categorie poate fi clasificat innd cont de o serie de criterii precum natura informaiilor extrase (distingem trsturi rezultate din geometria specific feelor, respectiv n urma aplicrii unei proceduri de proiecie pe subspaii liniare sau neliniare specifice), aria imaginii supuse procesrii (vom regsi metode, denumite holistice, care prelucreaz ntreaga imagine, respectiv soluii orientate pe zone limitate situate n jurul punctelor fiduciale), gradul de localizare spaial a

16

CAPITOLUL 1: RECUNOATEREA FEELOR

trsturilor, natura real (eventual binar) sau complex a semnturii, modularitatea arhitecturii, robusteea n raport cu numeroasele surse de variabilitate specifice acestor aplicaii. De multe ori alegerea metodei de extragere a trsturilor semnificative este strns legat de tipul clasificatorului ce urmeaz a fi utilizat n vederea furnizrii deciziei. Mai mult, dimensiunea i particularitile bazei de date disponibile impun constrngeri suplimentare n privina alegerii soluiei adecvate. n cele ce urmeaz vom trece n revist cteva dintre tehnicile semnificative descrise n literatur, menionnd aspectele teoretice, avantajele i dezavantajele, precum i codul MATLAB corespunztor. Analiza pe Componente Principale (PCA) De regul, bazele de date folosite n experimentele de recunoatere a feelor conin imagini de dimensiune foarte mare. O astfel de risip de resurse, valabil de altfel i n cazul semnalelor vocale sau al altor imagini naturale, conduce la o robustee semnificativ, care permite receptarea corect a informaiei transmise, chiar n condiiile n care aceasta este afecatat de zgomot, este distorsionat sau incomplet. Pe de alt parte, dimensiunile mari complic semnificativ implementarea practic a diverselor tehnici de procesare, cresc volumul de calcul i, n plus, necesit existena unui numr sporit de imagini n baza de date cu care se opereaz (dac imaginile originale sunt vzute ca puncte ntr-un spaiu multidimensional, cu ct dimensiunea spaiului este mai mare, cu att mai multe puncte sunt necesare pentru a asigura o acoperire mai bun a ntregului spaiu, n vederea asigurrii unei aproximri adecvate a densitii reale de repartiie a tuturor punctelor reprezentnd imagini valide de fee umane). n acest context, se dovedesc utile tehnicile de compresie, folosite pentru a reduce dimensiunea datelor originale, n condiiile unor pierderi de informaie (inevitabile) ct mai mici. Tehnicile de compresie uzuale aparin de regul uneia din urmtoarele 3 categorii: a) codare (liniar) predictiv; b) calcul de transformate liniare; c) cuantizare vectorial. n cele ce urmeaz vom introduce una dintre cele mai cunoscute metode de compresie aparinnd celei de a doua clase, denumit Analiza pe Componente Principale (Principal Component Analysis PCA) sau transformata KarhunenLoeve. Astfel, s considerm c avem la dispoziie N vectori xn aparinnd unui

1.2 Algoritmi de recunoatere a feelor

17

spaiu vectorial de dimensiune D crora li se asociaz, prin intermediul unei transformate liniare descrise de matricea [W]MxN, un set de vectori de dimensiune mai mic M < D, conform relaiei:
y n = Wx n , n = 1 N

(1.2)

n spaiul original, vectorul xn poate fi scris sub forma unei combinaii liniare a elementelor unei baze ortonormate {ui, i = 1...D} sub forma:
xn =

i =1

wi, n ui ,

n = 1 N

(1.3)

n care coeficienii wi,n se calculeaz cu relaia:

wi, n = uiT x n , n = 1 N

(1.4)

S presupunem c dorim s reinem din descompunerea (1.3) numai un set redus de M termeni, iar restul coeficienilor wi,n s fie nlocuii cu valori constante: xn =
M D

i =1

wi, nui +

i = M +1

ci ui , n = 1 N

(1.5)

Ideea fundamental a metodei PCA este de a gsi baza particular care asigur minimizarea erorii ptratice medii dintre seturile de vectori xn i x n : E=
N D 1 N 2 1 xn xn = 2 (wi, n ci )2 2 n =1 n =1 i = M +1

(1.6)

Un rezultat fundamental cunoscut sub denumirea de transformata Karhunen-

Loeve (KLT) demonstreaz c aceast baz este format din vectorii proprii ai
matricii de autocovarian a vectorilor xn: S = E{( X X)( X X)T } 1 N (xn x)(xn x)T N n =1 (1.7)

unde x desemneaz valoarea estimat (pe baza setului finit de N exemple) a valorii medii a procesului aleator reprezentat de vectorii xn. n plus, valorile constantelor ci sunt date de relaia:

18

CAPITOLUL 1: RECUNOATEREA FEELOR ci = 1 N wi, n = uiT x N n =1

(1.8)

Utilizarea acestor rezultate pentru compresia de date presupune parcurgerea succesiv a ctorva pai: a) calculul valorii medii x a vectorilor supui analizei; b) determinarea valorilor i i vectorilor proprii ui ai matricii de autocovarian S; c) aplicarea relaiei (1.5) pentru un numr M < D de vectori proprii corespunztori celor mai mari valori proprii ale matricii de autocovarian S (aa-numitele componente principale). n multe aplicaii practice se dovedete c cea mai mare parte a energiei semnalelor originale se regsete acumulat numai ntr-un numr redus de componente principale, iar modalitatea particular de selecie a acestora este justificat (conform unui calcul elementar) de expresia erorii ptratice medii: E= 1 D i 2 i = M +1 (1.9)

Din punct de vedere practic apar dificulti datorate complexitii calculului i memoriei necesare estimrii matricii de autocovarian S i a valorilor/vectorilor proprii ale acesteia. Una dintre soluiile adoptate este de a nlocui baza ortonormat corespunztoare transformatei KLT cu cea definit de Transformata Cosinus Discret (DCT)1. Pe de alt parte au fost prezentate n literatur o serie de reele neurale, cele mai multe liniare, capabile s implementeze metoda PCA ntr-o manier recursiv, eliminnd astfel i dezavantajul variantei standard de a necesita reluarea ntregii proceduri de calcul la fiecare apariie a unui vector nou n baza de date. Metoda PCA descris anterior a fost aplicat cu succes la recunoaterea feelor, sub denumirea generic Eigenfaces [24]. Materia prim o constituie ansamblul imaginilor disponibile n baza de date, formate din matrici cu valori reale (eventual binare). Fiecare astfel de matrice, presupus de dimensiune (MxN), este mai nti transformat ntr-un vector de aceeai lungime, prin concatenarea coloanelor corespunztoare. Algoritmul de procesare presupune parcurgerea urmtorilor pai:
1

Aceast metod este implementat n standardul JPEG (Joint Photographic

Expert Group)

1.2 Algoritmi de recunoatere a feelor

19

a) Se calculeaz valoarea medie a imaginilor care formeaz setul de antrenare (presupus a avea K fotografii):
K

Ij
I=
j =1

(1.10)

i se centreaz imaginile originale (se aduc la valoare medie nul):


I centrat = I j I j

(1.11)

b) Se calculeaz aa-numita scatter matrix, care reprezint aproximarea matricii de covarian a imaginilor din baza de date (aproximarea este cu att mai bun cu ct avem mai multe imagini la dispoziie):
S= 1 A AT K (1.12)

unde matricea A are pe coloane cte o fotografie centrat: A = I1centrat I 2centrat ........I k centrat ( M N )k Matricea S este simetric i are dimensiuni (M*N)x(M*N). c) Se calculeaz valorile i vectorii proprii ai matricii S (vectorii proprii ai matricii S n cazul lucrului cu imagini reprezentnd fee poart denumirea Eigenfaces). (1.13)

Observaii:
a) se poate utiliza un artificiu care reduce volumul de calcul: se calculeaz valorile i vectorii proprii ai matricii AT A i apoi se folosete relaia dintre acetia din urm i vectorii proprii ai matricii S. b) valorile proprii ale matricii S sunt ntotdeauna pozitive deoarece S este real i simetric. d) Se ordoneaz valorile proprii ale matricii S n sens descresctor. Se traseaz un grafic care exprim pierderea de informaie n raport cu factorul de compresie.

20

CAPITOLUL 1: RECUNOATEREA FEELOR

Astfel, dac notm cu i , i = 1 ( M N ) , valorile proprii sortate ale matricii S, graficul anterior se refer la raportul (pe abscis avem j = 1 ( M N ) ):

i =1 ( MxN )

i
(1.14)

j =1

Graficul anterior permite estimarea numrului de valori i vectori proprii considerai semnificativi (adic aceia care pstreaz cea mai mare parte din energia imaginilor originale). e) Se proiectez imaginile (centrate) originale pe spaiul descris de vectorii proprii reprezentativi (tipic acetia sunt n numr de 5-10% din numrul total). Proiecia const de fapt n efectuarea produsului scalar dintre fiecare imagine original i o matrice avnd drept coloane numai vectorii proprii semnificativi. Pentru fiecare imagine (centrat) I j
centrat

se obine proiecia pe baza relaiei: (1.15) (1.16)

W jT = I j centratT VPCA

VPCA = E1E2 E3 ......E N max

unde N max este numrul maxim de vectori proprii reinui, E j sunt vectorii proprii semnificativi, iar vectorii W j au dimensiunea ( N max 1) i pot fi privii ca semnturile asociate imaginilor originale. f) Clasificarea imaginilor test presupune mai nti determinarea semnturii fiecrei imagini n raport cu subpaiul determinat anterior (i care depinde exclusiv de imaginile din setul de antrenare!) i gsirea acelei imagini din baza de date de antrenare a crei semntur este cea mai apropiat de semntura imaginii de test. Aprecierea similitudinii dintre astfel de perechi de imagini se realizeaz folosind o metric convenabil aleas. Opiunea uzual este distana Euclidean (L2), ns se

1.2 Algoritmi de recunoatere a feelor

21

pot utiliza i alte msuri precum funcia de autocorelaie, cosinusul unghiului dintre 2 vectori sau distana Mahalanobis. Definiiile acestora se prezint mai jos:
2

Distana Euclidean: Distana Manhattan: Funcia deintercorelaie:

dL

( x, y ) = ( xi yi )
i =1 D

d L ( x, y ) = xi yi
1

C [k ] =

k = D

i =1 D

xi yi + k x y x y

(1.17)

Cosinusul unghiului dintre vectori: cos ( x, y ) =

Distana Mahalanobis:

d M ( x, y ) = i =1

xi yi
i

Principalul avantaj al metodei PCA const n simplitatea sa. Exist posibilitatea de a calcula vectorii proprii principali nu numai n variant off-line prin procedura algebric descris anterior ci i on-line, folosind anumite reele neurale artificiale pentru a ajusta n mod iterativ valorile acestora, pe msur ce se aplic date noi la intrare. n cazul aplicrii metodei PCA la recunoaterea feelor, trebuie menionate i o serie de dezavantaje, care limiteaz performanele sistemelor bazate pe acest instrument de analiz: - principalul dezavantaj const n faptul c ignorarea componentelor care contribuie puin la energia imaginilor originale nu conduce automat i la mbuntirea separrii (discriminrii) dintre diversele subclase de imagini aparinnd unor persoane diferite (altfel spus, minimizarea erorii de reprezentare nu nseamn neaprat mbuntirea performanelor de clasificare!). Un exemplu intuitiv este prezentat n Fig. 1.8, care indic faptul c cele dou clase pot fi separate comod efectund proiecia pe componenta principal mai puin semnificativ. - un alt dezavantaj al tehnicii PCA l reprezint caracterul global al acesteia, n sensul c matricea de convarian (deci i valorile i vectorii proprii) este dedus

22

CAPITOLUL 1: RECUNOATEREA FEELOR

lund n considerare toate imaginile disponibile, care pot s conin o foarte mare variabilitate din punct de vedere al nivelului de iluminare, orientrii, fundalului. Acest dezavantaj poate fi compensat paial utiliznd arhitecturi modulare, n care tehnica PCA se aplic pe subseturi de imagini care au caracteristici comune (de exemplu, se calculeaz seturi de vectori proprii distinci pentru clasa imaginilor reprezentnd vederi frontale, respectiv vederi nclinate la 30, 40). De asemenea, se pot utiliza arhitecturi n care fiecare modul este specializat s recunoasc numai imaginile reprezentnd o aceeai persoan. - n cazul particular al analizei imaginilor reprezentnd fee, metoda PCA s-a dovedit extrem de sensibil n raport cu normalizarea poziiei acestora: translaii pe orizontal/vertical cu numai civa pixeli, mici rotaii sau variaii de scal pot altera semnificativ semnturile extrase i, n consecin, pot degrada performanele de recunoatere/autentificare. Ca urmare, este necesar o etap (manual sau automat) de normalizare a aspectului imaginilor, care s precead aplicarea propriu-zis a PCA. Alternativ, au fost propuse variante ale metodei standard, care ncearc s compenseze acest dezavantaj prin filtrarea adecvat a imaginilor originale. n particular, uneori se prefer ignorarea proieciei de-a lungul primului vector propriu semnificativ, deoarece de regul acesta este sensibil la nivelul global de iluminare al imaginilor.

Fig. 1.8 Metoda PCA nu asigur ntotdeauna maximizarea discriminabilitii: direcia de clasificare optimal corespunde vectorului propriu mai puin semnificativ

1.2 Algoritmi de recunoatere a feelor

23

pca.m: Funcie MATLAB care implementeaz algoritmul PCA function [eig_vectors, eig_values] = pca(A, numvecs); % Functia returneaza un numar de vectori proprii semnificativi ai matricii de covarianta % asociate matricii A, folosind algoritmul lui Turk & Pentland [24] pentru cazul tipic in care % numarul de linii ale lui A este mult mai mare decit cel al coloanelor % A - matricea datelor de intrare (fiecare coloana reprezinta un vector distinct) % numvecs - numarul vectorilor proprii selectati % eig_vectors - matricea vectorilor proprii (organizati pe coloane) % eig_values - valorile proprii nexamp = size(A,2); mean_A = mean(A')'; % valoarea medie % Se centreaza vectorii care formeaza matricea A for i = 1:nexamp A(:,i) = A(:,i) - mean_A; end CovMat=A*A'; % matricea de covarianta asociata lui A L = A'*A; % matricea folosita de catre Turk & Pentland [Vectors,Values] = eig(L); % Sortarea vectorilor proprii in functie de valorile proprii [Vectors,Values] = sortem(Vectors,Values); % Turk & Pentland: vectorii proprii ai lui L se transforma in cei ai lui CovMat Vectors = A*Vectors; % Extragerea valorilor proprii Values = diag(Values); Values = Values / (nexamp-1); % Normalizarea vectorilor proprii, eliminarea valorilor proprii nesemnificative num_good = 0; for i = 1:nexamp Vectors(:,i) = Vectors(:,i)/norm(Vectors(:,i)); if Values(i) < 0.00001 Values(i) = 0; Vectors(:,i) = zeros(size(Vectors,1),1); else num_good = num_good + 1; end end if (numvecs > num_good) sprintf(1,'Warning: numvecs is %d; only %d exist.\n',numvecs,num_good); numvecs = num_good; end Vectors = Vectors(:,1:numvecs);

24

CAPITOLUL 1: RECUNOATEREA FEELOR

%============================== function [NV,ND] = sortem(V,D); %============================== % Functia sorteaza coloanele matricii V in functie de valorile de pe diagonala principala a % matricii D dvec = diag(D); NV = zeros(size(V)); [dvec,index_dv] = sort(dvec); index_dv = flipud(index_dv); for i = 1:size(D,1) ND(i,i) = D(index_dv(i),index_dv(i)); NV(:,i) = V(:,index_dv(i)); end

Analiza Discriminatorie Liniar (LDA) O observaie important menionat anterior sublinia faptul c proiecia datelor de lucru pe subspaiul generat de setul de vectori proprii semnificativi ai matricii de autocorelaie, dei minimizeaz eroarea de reconstrucie, nu ofer automat i optimizarea performanelor de clasificare. Pentru a identifica direciile din spaiu de-a lungul crora ar fi indicat s efectum proiecia pentru a maximiza separarea (discriminabilitatea) datelor procesate se poate utiliza o alt tehnic liniar de natur statistic, cunoscut sub denumirea Linear Discriminant Analysis (LDA). Pentru a ilustra aceast metod, s considerm cazul mai simplu al clasificrii unui set de vectori x n 2 categorii distincte, avnd fiecare N1, respectiv N2 exemplare. S considerm o direcie din spaiu, definit de un vector w cu aceeai dimensiune ca i vectorii x, de-a lungul creia s proiectm datele de lucru pe baza relaiei
y = wT i x , decizia privind apartenena vectorului x la una dintre cele 2 categorii

urmnd a fi luat prin compararea mrimii scalare y cu o valoare de prag convenabil aleas. Ne propunem s identificm acea direcie particular care asigur maximizarea ratei de clasificare corect, altfel spus direcia de-a lungul creia separarea dintre clase este cea mai mare. Una dintre cele mai naturale idei este de a considera direcia care mrete separabilitatea proieciilor valorilor medii ale celor 2 clase, cu alte cuvinte ar trebui s maximizm expresia: m2 m1 = wT i (m 2 m1 ) unde m1 i m2 desemneaz valorile medii: (1.18)

1.2 Algoritmi de recunoatere a feelor

25

m1 =

1 1 xn ; m2 = N xn N1 nC 2 nC2 1

(1.19)

Deoarece expresia (1.18) poate fi fcut orict de mare jonglnd din amplitudinea vectorului w, este necesar s introducem o constrngere suplimentar, de exemplu s impunem ca norma acestuia s fie constant. Utiliznd binecunoscuta metod a multiplicatorilor lui Lagrange, se poate arta c soluia noii probleme de optimizare (cu constrngeri) conduce la w ( m 2 m1 ) . Totui, este posibil ca direcia de maxim discriminabilitate s nu fie neaprat cea care asigur separarea optim a proieciilor valorilor medii, n special n cazurile n care una sau ambele clase conin date foarte mprtiate n spaiu. Ca urmare, o soluie mai bun este cea care i propune maximizarea unei funcii definite ca raportul dintre proieciile valorilor medii i dispersiile datelor de-a lungul direciei vectorului w:
J ( w) =

( m2 m1 )2
12 + 22

wT SW w

wT S B w

(1.20)

unde matricile SB i SW sunt definite prin: S B = ( m 2 m1 )( m 2 m1 ) SW =


nC1 T ( xn m1 )( xn m1 ) T

nC2

T ( xn m2 )( xn m2 )

(1.21)

Se poate arta c maximizarea funciei J(w) conduce la concluzia: w SW 1 (m 2 m1 ) (1.22)

n cazul particular n care matricea SW este proporional cu o matrice unitate (se spune c matricea este izotrop, adic mprtierea datelor este uniform n toate direciile), condiia anterioar se reduce din nou la w ( m 2 m1 ) . Metoda LDA poate fi generalizat pentru probleme de clasificare cu un numr oarecare de categorii C 2 , cu observaia c numrul de direcii discriminatorii posibil de determinat este egal cu (C-1). Aceast constrngere poate reprezenta un dezavantaj major pentru extragerea unor semnturi semnificative n condiiile n

26

CAPITOLUL 1: RECUNOATEREA FEELOR

care avem la dispoziie date de dimensiune mare aparinnd unui numr limitat de clase, motiv pentru care de multe ori aplicarea metodei LDA este precedat de o etap prealabil de reducere a dimensionalitii vectorilor originali, de obicei bazat pe aplicarea tehnicii PCA. Mai mult, dac numrul de vectori disponibili este redus (iar acest lucru este posibil n aplicaii biometrice unde, de exemplu, putem avea numai una sau dou fotografii ale unei aceleeai persoane!), estimarea valorilor medii i, n continuare, a matricilor SB i SW este nerelevant din punct de vedere statistic. Un alt dezavantaj, pe care l prezint ambele tehnici descrise anterior, se refer la faptul c identificarea setului de trsturi semnificative se face folosind exclusiv datele de intrare, nu i eticheta corespunztoare categoriei crora acestea aparin. n final, s menionm c n literatur au fost propuse i utilizate cu succes unele variante neliniare ale acestor metode, de exemplu bazate pe arhitecturi speciale de reele neurale artificiale.
lda.m: Funcie MATLAB care implementeaz algoritmul LDA function [fisher_basis]=lda(data, NumClasses, ImgsPerClass); % data - matricea de date (organizate pe coloane) % NumClasses - numarul de categorii % ImgsPerClass - numarul de vectori din fiecare clasa (presupus identic pentru simplitate) % fisher_basis - matrice ale carei coloane reprezinta directiile de maxima discriminabilitate N=size(data_train,1); % dimensiunea vectorilor de intrare % Se calculeaza vectorul mediu al fiecarei clase mn = mean(data')'; for i = 1:NumClasses m(:,i) = mean(data(:,(i-1)*ImgsPerClass+1:(i-1)*ImgsPerClass+ImgsPerClass)')'; msm(:,i) = m(:,i) - mn; end % Se centreaza toate imaginile for i=1:NumClasses*ImgsPerClass msc(:,i) = data(:,i) - m(:,double(floor((i-1)/ImgsPerClass))+1); end sw = zeros(N); % Se calculeaza matricea Sw (within class scatter matrix) for i=1:NumClasses*ImgsPerClass sw = sw + msc(:,i) * msc(:,i)'; end sb = zeros(N); % Se calculeaza matricea Sb (between class scatter matrix) for i=1:NumClasses sb = sb + msm(:,i) * msm(:,i)'; end

1.2 Algoritmi de recunoatere a feelor


% Se rezolva ecuatia: Sb*w = D*Sw*w [V,D]=eig(sb,sw); szd = size(D); for i=1:szd(1) evals(i) = D(i,i); end [a,b]=sort(evals); % Se extrag vectorii proprii asociati celor mai mari (NumClasses-1) valori proprii for i = 1:NumClasses-1 fisher_basis(:,i)=V(:,b(szd(1)-(i-1))); end

27

Tehnici de procesare local O serie de lucrri semnifcative aprute recent se refer la reprezentarea obiectelor naturale prin pri componente (parts-based object recognition), justificat intuitiv de o serie de avantaje poteniale ale acestora precum stabilitatea la deformri locale, grad sporit de invarian n raport cu nivelul de iluminare, toleran la acoperire parial. n cazul particular al procesrii feelor, imaginea se descompune ntr-o combinaie liniar de imagini bine localizate n spaiu, ca n Fig. 1.9, care pot fi interpretate drept componentele unor baze specifice.

Fig. 1.9 Reprezentarea feelor prin pri componente

Vom prezenta n continuare cteva modaliti diferite de a obine astfel de reprezentri. Procedura general este urmtoarea: imaginile folosite sunt reunite sub forma unei matrici X, fiecare coloan a matricii reprezentnd vectorul intensitii luminoase a pixelilor corespunztori unei anumite fotografii. Vom nota cu B setul de vectori ai bazei (localizate spaial) i cu H matricea coeficienilor descompunerii imaginilor n raport cu aceast baz (aceti coeficieni reprezint proiecii ale matricii de date X pe baza B). Dac numrul de vectori ai bazei este mai mic dect lungimea vectorilor din matricea X (i, de regul, aa se i ntmpl),

28

CAPITOLUL 1: RECUNOATEREA FEELOR

atunci se obine compresia datelor de lucru, iar fiecare linie a matricii H va forma semntura unei imagini din baza de date. Se poate scrie: X BH (1.23)

Procedura de recunoatere efectiv se va baza pe identificarea distanei minime dintre o astfel de semntur corespunztoare unei imagini de test i semnturile imaginilor din setul de antrenare. Diversele tehnici folosite impun constrngeri specifice asupra lui B i/sau H, n unele cazuri obinndu-se baze localizate spaial. Metoda NMF a fost recent introdus ca tehnic liniar de proiecie care impune constrngeri de non-negativitate asupra matricilor B i H [13]: B, H 0 (1.24)

Justificarea de principiu este legat de metoda intuitiv de combinare a prilor pentru a forma un ntreg, astfel nct doar combinaiile strict aditive ale vectorilor care formeaz baza B sunt permise. Algoritmul iterativ de calcul pentru obinerea valorilor matricilor de interes este formulat astfel: H aj H aj BT
i ai

[BH ]ij
(1.25)

X ij

Bia Bia
j

[BH ]ij

X ij

HT ja

Bia

Bia B ja
j

Contrar rezultatelor raportate n articolul original [13], n cazul reprezentrii unor imagini de fee umane care nu sunt n prealabil aliniate cu acuratee, baza B generat prin metoda NMF nu este suficient de bine localizat spaial. Pentru a corecta acest dezavantaj a fost introdus o versiune local a algoritmului (denumit Local NMF - LNMF), care impune urmtoarele constrngeri suplimentare [14]: a) dispersie maxim a coeficienilor matricii H b) maxim expresivitate a vectorilor din baza B c) maxim ortogonalitate pentru vectorii din baza B Urmtoarele ecuaii descriu procedura de calcul pentru B i H:

1.2 Algoritmi de recunoatere a feelor H aj H aj BT


i

29 X ij

ai

[BH ]ij
(1.26)

Bia Bia
j

[BH ]ij

X ij

T H ja

Bia

Bia B ja
j

n Fig. 1.10 se prezint exemple de vectori ai bazei B obinui prin cele dou metode descrise anterior, n cazul reprezentrii imaginilor din baza de date Olivetti. Se observ c ntr-adevr localizarea imaginilor este superioar n cazul algoritmului LNMF.

a)

b)

c)

d)

Fig. 1.10 Componente ale bazei B obinute pe baza algoritmului: a) NMF; b) LNMF; c) ICA; d) NA

30

CAPITOLUL 1: RECUNOATEREA FEELOR

Este important de menionat c lista metodelor capabile s conduc la baze formate din imagini cu bun localizare spaial este mai larg, incluznd printre altele tehnica ICA (Independent Components Analysis) [1], reelele neurale asociative de tipul celor descrise n contextul PCA, nsoite de constrngerea privind caracterul ne-negativ al tuturor ponderilor (Non-negative Autoassociators - NA) [6], sau diversele metode de tip sparse coding [7].

1.3 Aplicaii ale algoritmilor de recunoatere a feelor


n cele ce urmeaz vom prezenta o serie de rezultate experimentale obinute n urma aplicrii algoritmilor descrii n paragraful anterior. Vor fi analizate aspecte specifice fiecruia dintre cele 3 module de baz care compun un sistem automat de recunoatere a formelor (preprocesare, extragere de trsturi, clasificare), avnd la dispoziie seturi de imagini disponibile public i utilizate frecvent n literatur pentru analiza comparativ a performanelor diverselor soluii propuse. ncepem prin a descrie sumar bazele de date folosite, vom continua cu prezentarea exemplelor concrete, iar n final vom enumera o serie de concluzii i comentarii pe marginea rezultatelor obinute. Menionm c scenariul utilizat n fiecare experiment presupune folosirea a 2 seturi de date distincte: - setul de antrenare (denumit n literatur gallery set) reprezint materia prim utilizat de diveri algoritmi pentru a obine informaiile necesare n vederea generrii semnturii imaginii analizate. Aceste informaii pot fi, de exemplu, vectorii proprii semnificativi ai matricii de covarian (n cazul algoritmului PCA), sau vectorii care definesc direciile de maxim discriminabilitate (n cazul algoritmului LDA). - setul de test (denumit n literatur probe set) este format din imagini proaspete, neutilizate n faza de antrenare, care vor servi pentru a estima performanele reale ale metodei de recunoatere studiate. Pentru ca rezultatele s fie relevante din punct de vedere statistic, de obicei se efectueaz experimente repetate, alocnd n mod aleator imaginile din baza de date disponibil ctre setul de antrenare, respectiv cel de test, iar valorile ratelor de

1.3 Aplicaii ale algoritmilor de recunoatere a feelor

31

recunoatere rezultate n fiecare experiment se mediaz pentru a obine n final un rezultat care estimeaz nivelul real de performan al soluiei analizate. Baze de date utilizate n aplicaii de recunoatere a feelor n literatur sunt raportate performane de recunoatere utiliznd o list destul de larg de baze de date, majoritatea disponibile gratis n scopuri de cercetare. Acestea difer prin numrul persoanelor incluse, numrul de fotografii ale aceluiai subiect, rezoluie i format, iar dintre acestea amintim [5]: Baza de date Olivetti: conine cte 10 imagini distincte pentru un numr total de 40 de persoane, prezentnd variaii din punctul de vedere al orientrii, rotaiei n planul imaginii (de pn la 20), scalei de reprezentare (de pn la 10%) i expresiei feei, n condiii de iluminare controlate. Dimensiunile fiecrei imagini sunt de 112x92 pixeli, folosind 256 nivele de gri, iar exemple se prezint n Fig. 1.11. n experimentele efectuate am alocat n mod aleator un numr de maxim 5 imagini (din totalul de 10) ale fiecrei persoane setului de antrenare, iar restul au format setul de test. Baza de date AR: conine 113 persoane (63 brbai i 53 femei), fotografiile avnd 768x576 pixeli, reprezentate color pe 24 de bii. Pentru fiecare subiect sunt incluse 2 seturi de cte 13 imagini, obinute la interval de dou sptmni, caracterizate de expresie variabil a feei, nivele diferite de iluminare i acoperire parial, ca n exemplele din Fig. 1.12. Conform metodologiei utilizate frecvent n literatur, am alocat setului de antrenare numai perechile de imgini corespunztoare expresiei neutre (notate AR011, respectiv AR012 n Fig. 1.12), urmnd ca setul de test s fie format din restul imaginilor disponibile. n particular, imaginile au fost preprocesate prin mascarea fundalului i a prului1. Baza de date Yale: conine 165 de imagini ale unui numr de 15 persoane, caracterizate prin variabilitate semnificativ a expresiei feei, ca n Fig. 1.13. Datorit dimensiunii mici a bazei de date, tipic se efectueaz experimente repetate alocndu-se setului de test numai cte o singur imagine a fiecrei persoane.
1

Baza de date preprocesat a fost pus la dispoziie cu amabilitate de ctre David

Guillaumet de la Universitat Autonoma de Barcelona.

32

CAPITOLUL 1: RECUNOATEREA FEELOR

Fig. 1.11 Exemple de imagini din baza de date Olivetti


AR011 AR012

AR02

AR03

AR04

AR05

AR06

AR07

AR08

AR09

AR10

AR11

AR12

AR13

Fig. 1.12 Exemple de imagini din baza de date AR

Fig. 1.13 Exemple de imagini din baza de date Yale

1.3 Aplicaii ale algoritmilor de recunoatere a feelor Tehnici de preprocesare

33

Multe dintre tehnicile de recunoatere a feelor, n particular metoda PCA, sunt foarte sensibile la alinierea corect a imaginilor care formeaz setul de antrenare, performanele degradndu-se semnificativ dac acestea sunt uor translate sau rotite. Din acest motiv, multe soluii folosesc o etap premergtoare de preprocesare (automat sau manual) care are drept rezultat obinerea unei baze de date formate din imagini avnd aceeai scal de reprezentare i neafectate de translaii relative sau rotaii n planul imaginii (tipic, segmentul definit de poziia ochilor este folosit pentru aceast etap de normalizare). n plus, exist argumente teoretice care justific utilizarea exclusiv a zonei care definete faa propriu-zis, eliminndu-se influena fundalului i a prului. n acest scop se utilizeaz mti de form oval, precum se indic n Fig.1.12 n cazul bazei de date AR. Dimensiunile mari ale imaginilor reprezint de multe ori o problem major, deoarece volumul de calcul poate deveni excesiv n unele cazuri. innd cont de rezultate care confirm degradarea lent a performanelor de recunoatere n raport cu rezoluia folosit, se pot aplica proceduri de subeantionare care s conduc la dimensiuni rezonabile (de exemplu, de ordinul a 1000-2000 de pixeli). n particular, se poate face apel la Transformata Wavelet Discret (prezentat pe larg n capitolul urmtor), care permite reducerea dimensionalitii simultan cu asigurarea invarianei n raport cu expresia feei. Metoda PCA i variantele sale Metoda PCA (denumit eigenfaces n contextul aplicaiilor de recunoatere a feelor [24]) reprezint fr ndoial referina n raport cu care se compar performanele oricrui algoritm propus n literatur. Dei simplu de aplicat i oferind performane rezonabile n condiii dintre cele mai diverse, metoda este totui afectat de unele limitri precum sensibilitatea n raport cu alinierea imaginilor i nivelul de iluminare, cerina de a beneficia de o baz de date de dimensiune suficient de mare, dificultatea de a opera on-line (n sensul de a putea actualiza fr un efort de calcul substanial valorile vectorilor proprii semnificativi odat cu apariia unor date proaspete n setul de antrenare). Ca urmare, au aprut

34

CAPITOLUL 1: RECUNOATEREA FEELOR

o serie de variante ale algoritmului standard, care ncearc s diminueze aceste neajunsuri. Astfel, mbuntirea toleranei n raport cu alinierea imaginilor este sugerat prin metoda denumit (PC)2A (Projection Combined PCA) [26], care definete mai nti aa-numitele proiecii integrale de-a lungul axei orizontale i verticale ale unei imagini I(x, y) de dimeniune MxN prin:
Vp ( x ) = I ( x, y ) , H p ( y ) = I ( x, y )
y =1 x =1 N M

(1.27)

pe baza crora se definete apoi matricea:

M I ( x, y ) =

Vp ( x ) H p ( y ) MN I

, I=

I( x, y)
x =1 y =1

MN

(1.28)

n final se obine o versiune preprocesat a imaginii originale conform relaiei:


P ( x, y ) = I ( x, y ) + M I ( x, y ) 1+

(1.29)

Efectul intuitiv al acestei proceduri const ntr-un anumit grad de dezaccentuare a contururilor ferme ale imaginii originale (blurring), dup cum se ilustreaz n Fig. 1.14a. Utilizarea efectiv a metodei presupune aplicarea acestei transformri asupra fiecrei imagini din baza de date, urmnd ca apoi s folosim varianta standard a algoritmului PCA. O alt soluie i propune s atenueze sensibilitatea PCA n raport cu nivelul variabil de iluminare. Astfel, pornind de la observaia intuitiv potrivit creia iluminarea influeneaz destul de puin contururile unei imagini, metoda eigenhills [27] propune detecia prealabil a contururilor feelor din baza de date, dup care aplic metoda PCA standard. n realitate, pentru a prentmpina dezavantajul conform cruia imaginile reprezentnd contururile sunt mult mai sensibile la translaii relative i expresii variabile ale feei, se aplic asupra contururilor o operaie de filtrare trece-jos, astfel nct informaia este mprtiat oarecum n spaiu, dup cum se sugereaz n Fig.1.14b.

1.3 Aplicaii ale algoritmilor de recunoatere a feelor

35

a)

b) Fig. 1.14 Variante ale algoritmului PCA : a) metoda (PC)2A ; b) metoda eigenhills

Exemple de componente ale bazei rezultate din aplicarea fiecrei variante se prezint n Fig. 1.15. Rezultate experimentale comparative ntre cele 3 metode folosind baza de date Olivetti sunt indicate n Tabelul 1.1. Au fost efectuate 10 experimente distincte, folosind cte 5 imagini ale fiecrei persoane n setul de antrenare, respectiv de test.

a)

b)

c) Fig. 1.15 Exemple de componente ale bazelor obinute prin metoda : a) PCA standard; b) (PC)2A ; c) eigenhills

36

CAPITOLUL 1: RECUNOATEREA FEELOR

Tabelul 1.1: Rezultate experimentale PCA, (PC)2A, eigenhills Tipul distanei


L2 (individual) L2 (average) Mahalanobis

Eigenface
94.7 % 90.8 % 94.8 %

(PC)2A
95.5 % 89.6 % 95.4 %

Eigenhills
84.4 % 82.5 % 85.4 %

Tehnici de procesare locale n Fig. 1.9 a fost ilustrat posibilitatea de a reprezenta feele prin pri componente sau, mai exact, de a ncerca descompunerea unei astfel de imagini n raport cu o baz particular, ale crei componente s fie caracterizate de o bun localizare spaial. Drept exemple de algoritmi capabili s conduc la obinerea unei astfel de baze au fost menionate metodele NMF (Non-negative Matrix Factorization), varianta local a acesteia LNMF (Local NMF), algoritmul ICA (Independent Components Analysis) i reelele neurale autoasociative cu parametri nenegativi NA (Non-negative Autoassociators), iar exemple de componente ale acestor baze sunt prezentate n Fig. 1.10. Utiliznd baza de date AR au fost efectuate o serie de experimente care i propun s analizeze comparativ performanele acestor algoritmi n raport cu diverse surse de variabilitate precum expresia feei i nivelul de iluminare, iar rezultatele se prezint n Tabelele 1.2 i 1.3 (parametrul m indic numrul vectorilor care formeaz baza, adic dimensiunea subspaiului pe care se efectueaz proiecia vectorilor care reprezint imaginile originale). Aceleeai metode au fost utilizate i pentru studierea performanelor n situaiile n care feele sunt afectate de acoperire parial. Rezultatele corespunztoare bazei AR sunt indicate n Tabelul 1.4, observndu-se o degradare semnificativ a performanelor (sunt prezentate numai rezultate referitoare la cazul acoperirii folosind ochelari, deoarece ochii au o importan special n stabilirea nivelului de performan al unui sistem automat de recunoatere a feelor). n cazul bazei de date Olivetti acoperirea a fost modelat prin suprapunerea unor mti ptrate de dimensiune variabil, plasate aleator n planul imaginii, dup cum se sugereaz n Fig. 1.16, iar rezultatele sunt prezentate n Fig. 1.17.

1.3 Aplicaii ale algoritmilor de recunoatere a feelor Tabelul 1.2: Rate de recunoatere pentru expresie variabil (AR)

37

Tabelul 1.3: Rate de recunoatere pentru iluminare variabil (AR)

Fig. 1.16 Imagini din baza de date Olivetti acoperite parial

38

CAPITOLUL 1: RECUNOATEREA FEELOR

Tabelul 1.4: Rate de recunoatere pentru acoperire parial (AR)

Fig. 1.17 Rate de recunoatere pentru baza de date Olivetti

Clasificare folosind reele neurale autoasociative Principiul de clasificare denumit generic regula celui mai apropiat vecin (nearest neighbor rule) rmne n continuare soluia cea mai des utilizat n aplicaii generale de recunoatere de forme, n particular pentru problemele orientate pe

1.3 Aplicaii ale algoritmilor de recunoatere a feelor

39

prelucrarea imaginilor reprezentnd fee umane. Dei n literatur au fost propuse i alternative mai performante (de exemplu, bazate pe utilizarea clasificatoarelor optimale de tip Bayes), simplitatea rmne un argument puternic n favoarea primei metode. O alternativ interesant este oferit de teoria sistemelor dinamice neliniare, n mod concret de posibilitatea de a sintetiza aa-numite memorii asociative [4], capabile s furnizeze ieirea solicitat utiliznd drept cheie nu o adres, aa cum se ntmpl n cazul memoriilor clasice, ci o replic, de regul zgomotoas, incomplet sau eronat, a nsi informaiei stocate (acesta este i motivul pentru care astfel de sisteme sunt denumite i memorii adresabile prin coninut). Ideea fundamental este urmtoarea: trebuie sintetizat un sistem dinamic care s admit un set de puncte de echilibru stabil n dreptul vectorilor care urmeaz a fi stocai (de exemplu, n aplicaiile de recunoatere a feelor, vectorii memorai pot reprezenta semnturile corespunztoare imaginilor din setul de antrenare). Un vector zgomotos i/sau distorsionat (utilizat drept cheie pentru recuperarea informaiei de interes; de exemplu, semnturile feelor din setul de test) va reprezenta n fapt o stare iniial din care sistemul va evolua n mod natural spre starea de echilibru stabil n bazinul de atracie al creia se afl plasat cheia, n mod ideal ctre cel mai apropiat n distan Euclidean. Ar fi de dorit ca asemenea sisteme s ofere urmtoarele caracteristici: - s admit puncte de echilibru numai n poziii predefinite, fr apariia unora parazite - numrul de stri de echilibru stabil trebuie s fie n principiu orict de mare - introducerea sau eliminarea unui punct de echilibru trebuie s se fac simplu, fr a reproiecta ntregul sistem - extensia bazinului de atracie n jurul punctelor de echilibru trebuie s fie controlabil O posibil soluie de sintez a unui astfel de sistem dinamic (neliniar) este reprezentat de un sistem de tip gradient, definit prin relaia: dxi V ( X) = , X = [ x1 x2 xN ]T t dt (1.30)

40

CAPITOLUL 1: RECUNOATEREA FEELOR

unde N reprezint dimensiunea vectorului de stare, iar V(X) desemneaz aanumita funcie Lyapunov. Un rezultat teoretic binecunoscut afirm c punctele de echilibru stabil ale unui sistem de tip gradient coincid cu minimele izolate ale funciei Liapunov. innd cont de aceasta, cerinele formulate anterior pot fi satisfcute definind funcia Liapunov ntr-o manier particular, sub forma unei sume de funcii individuale cu selectivitate spaial, fiecare avnd un minim accentuat n dreptul unui singur punct i fiind practic constante n rest [4]: V ( X ) = g s ( X)
s =1 M

(1.31)

O posibilitate const n a alege drept argument al funciei selective gs(.) distana (convenabil aleas) dintre vectorul de stare curent X i un vector reprezentnd poziia dorit a unei informaii ce se dorete a fi stocat, astfel nct vom utiliza funcii selective prezentnd un minim accentuat n origine:
M M

V ( X) = g s ( X) = Gs [d ( X, X s )]
s =1 s =1

(1.32)

Un exemplu concret l reprezint alegerea unei funcii de tip gaussian, recomandat de considerente legate de facilitile de implementare pe care le ofer, axate pe posibilitatea de factorizare comod. O imagine intuitiv asupra funciei Liapunov definite mai sus se prezint n Fig. 1.18 (N=2, M=4; punctele de echilibru sunt: (-1,1), (-1,1), (1,-1), (1,1), iar s=1).

Fig. 1.18 Exemplu de funcie Liapunov de tipul (1.32)

1.3 Aplicaii ale algoritmilor de recunoatere a feelor

41

Procedura de clasificare ofer avantaje evidente fa de principiul celui mai apropiat vecin: nu este necesar s evalum distana dintre vectorul de test i toi vectorii care formeaz setul de antrenare (fapt care ar conduce la un volum mare de calcul atunci cnd baza de date are dimensiune mare), ci este suficient s iniializm starea sistemului dinamic neliniar cu vectorul de test, iar evoluia acestuia ctre unul dintre punctele de echilibru ne va furniza de fapt valoarea vectorului de antrenare cel mai apropiat de cel de test. Soluia prezint un grad sporit de modularitate deoarece introducerea/eliminarea unui punct de echilibru nu va influena semnificativ poziia celorlalte puncte, ofer o coresponden clar ntre setul de informaii ce urmeaz a fi stocate i ecuaiile care guverneaz dinamica sistemului, efectul diverilor parametri asupra evoluiei temporale este uor de interpretat, iar implementarea beneficiaz de avantajul unui set redus de interconexiuni. Am utilizat principiul descris anterior n cazul bazei de date Olivetti, folosind drept vectori ce urmeaz a fi memorai semnturi extrase pe baza algoritmilor PCA, respectiv LDA (n realitate, aplicarea algoritmului LDA a fost precedat de utilizarea metodei PCA n vederea reducerii dimensionalitii datelor), iar rezultatele se prezint n Tabelul 1.5. Au fost efectuate 10 experimente distincte, folosind cte 5 imagini ale fiecrei persoane pentru setul de antrenare, iar dimensiunea vectorilor de trsturi extrase a variat ntre 50 i 200 (n tabel sunt prezentate performanele optime pentru fiecare categorie de semnturi). Este uor de observat c metoda conduce la performane comparabile cu cele raportate n literatur folosind alte soluii. Tabelul 1.5: Rezultate comparative folosind baza de date Olivetti
Metoda Eigenfaces Convolutional Neural Network Linear SVM Kernel PCA PCA + Memorie asociativ LDA + Memorie asociativ Eroare de recunoatere (%) 10 3.8 3 2.5 5.4 3.1

42

CAPITOLUL 1: RECUNOATEREA FEELOR

1.4 Discuie asupra sistemelor biometrice


Prezentarea din cuprinsul paragrafelor anterioare s-a concentrat asupra aplicaiilor orientate pe procesarea imaginilor reprezentnd fee umane, ilustrate pe baza unor exemple care s ofere o imagine intuitiv asupra utilizrii diverilor algoritmi enumerai. Extinznd cadrul discuiei la ansamblul tehnologiilor biometrice, merit trecute n revist o serie de elemente specifice acestui domeniu, care trebuie avute n vedere n cazul implementrii unor sisteme automate capabile s furnizeze nivele satisfctoare de performan n aplicaii realiste. Tehnologii biometrice Exist o list destul de lung a tipurilor de informaii biometrice care sunt utilizate n mod curent n aplicaii de recunoatere sau autentificare, care include printre altele: vocea, amprentele, faa, irisul, forma geometric a minii, stilul de scriere, alura mersului, precum i combinaii ale acestora. Sistemele comerciale folosesc de regul primele patru categorii, datorit existenei senzorilor necesari cu preuri i performane satisfctoare, dar i a suportului teoretic aferent procesrii adecvate a datelor disponibile. n continuare vom enumera avantajele i dezavantajele celor mai importante tehnologii: amprentele: au avantajul c se pstreaz practic nealterate n decursul vieii i iau demonstrat deja eficiena n practic, existnd un volum apreciabil de date colectate. Preul suficient de sczut al multor senzori, diversitatea tehnologiilor de obinere i dimensiunile reduse sunt de asemenea atractive. Ca dezavantaje putem meniona posibilitatea ca anumite profesii s poat conduce la alterarea calitii amprentelor, obinerea unor date de bun calitate poate necesita o anumit procedur de antrenare, precum i reticena de a atinge un senzor pe care l-au atins n prealabil foarte multe persoane. irisul: nu necesit un contact fizic cu senzorul i reprezint o informaie extrem de individualizat (probabilitatea ca dou persoane diferite s aib o aceeai semntur biometric extras pe baza irisului este de 3x10-8!). Pe de alt parte, exist o reinere n a expune ochii ctre o surs de lumin, este necesar o pricepere mai mare dect n alte cazuri pentru a extrage informaia de interes, exist riscul ca

1.4 Discuie asupra sistemelor biometrice

43

informaia util s fie mascat de prezena unor lentile, a genelor sau a reflexiilor de pe cornee. Tehnologia de procesare a unor astfel de informaii a fost elaborat la nceputul anilor 80 de ctre cercettorul american John Daugman i este protejat de o serie de patente. faa: reprezint de asemenea o tehnic neinvaziv, utilizeaz drept senzori camere de fotografiat sau filmat disponibile pe scar larg, exist baze de date de dimensiune mare, iar rezultatele pot fi verificate cu uurin. Pe de alt parte, feele sunt puternic afectate de nivelul de iluminare, expresie, transformri geometrice, mbtrnire, iar unele aplicaii video presupun vitez de operare sporit. n practic, pe lng distincia dintre problemele de recunoatere i cele de verificare, se disting cteva direcii particulare de folosire a acestor informaii precum analiza expresiei feei, determinarea strii emoionale, detecia i urmrirea ochilor sau a buzelor. vocea: este acceptat pe scar larg, senzorii sunt la ndemn i nu necesit contact fizic cu utilizatorul. n schimb, vocea prezint variaii semnificative n raport cu vrsta, starea de sntate i cea emoional, apar dificulti datorate alterrii vocii de ctre tipul microfonului utilizat i a zgomotului ambiental, iar rezultate satisfctoare sunt dificil de obinut pe baze de date de dimensiune mare. Sunt avute n vedere dou familii mari de aplicaii, de recunoatere a vorbirii (indiferent de persoana care rostete cuvintele, precum n cazul roboilor telefonici), respectiv de identificare a vorbitorului. Proceduri de evaluare a performanelor nainte ca un sistem biometric automat s devin pe deplin operaional, acesta este supus unui ansamblu de teste specifice, fiecare avnd un scop precis, fixat n acord cu o modalitate particular de analiz i utiliznd o baz de date adecvat. Putem identifica urmtoarele tipuri de proceduri de evaluare [18]: evaluarea tehnologiei: urmrete validarea metodei analizate folosind baze de date standardizate de dimensiune mic, identificnd aspectele critice care necesit o analiz teoretic suplimentar i furniznd nivele de performan cu rol de referin pentru celelalte tipuri de proceduri de testare. evaluarea pe baz de scenariu: dureaz mai mult ca n cazul precedent i i propune s msoare performanele pentru o aplicaie specific, folosind baze de

44

CAPITOLUL 1: RECUNOATEREA FEELOR

date de dimensiuni mari, achiziionate de la un numr de utilizatori nefamiliarizai n prealabil cu sistemul. Rezultatele pot evidenia zone care necesit analiz suplimentar sau posibiliti de integrare i ofer valori mai exacte ale nivelelor reale de performan. evaluarea operaional: are n vedere cuantificarea impactului pe care introducerea sistemului biometric l are asupra ansamblului n care acesta este inclus. n acest context, este necesar evaluarea strii existente nainte de introducerea sistemului, respectiv celei de dup familiarizarea utilizatorilor cu modalitatea concret de operare a acestuia. Astfel de teste pot avea durate mari, de ordinul ctorva luni, iar aspectele vizate se refer att la tehnologia propriu-zis, ct i la efectele psihologice i economice pe care aceasta le produce. Modaliti de fraudare Nu exist sisteme biometrice ideale: implementarea oricrei metode de recunoatere/verificare bazate pe utilizarea unor astfel de informaii este inevitabil limitat inferior de valori a cror estimare precis reprezint subiectul unor proceduri riguroase de evaluare standardizat i/sau al unor competiii de mare anvergur, precum cele organizate periodic de ctre organizaia guvernamental american National Institute of Standards and Technology (www.nist.gov). n particular, aplicaiile de verificare (autentificare) trebuie s asigure un compromis rezonabil ntre cele dou tipuri majore de erori (rata de acceptare, respectiv de rejecie fals), astfel nct s minimizeze probabilitatea de acces la resurse/spaii protejate a unor persoane neautorizate fr a deranja excesiv pe utilizatorii autorizai. Alegerea concret a unor valori limit pentru aceste erori depinde nemijlocit de aplicaia considerat i de restriciile aferente, astfel nct n realitate vor exista ntotdeauna portie care pot fi folosite n tentative de fraudare. Pe de alt parte, folosind seturi de date generate artificial, au fost raportate i demonstrate posibiliti de a pcli destul de uor chiar i sisteme comerciale care s-au dovedit performante n testele de evaluare. Spre exemplu, cercettorul japonez Tsutomu Matsumoto i grupul su de la Yokohama National University au obinut amprente artificiale pe baz de gelatin, pornind att de la amprentarea direct a unor degete, ct i de la amprente latente, prelevate de pe o bucat de

1.4 Discuie asupra sistemelor biometrice

45

sticl. n ambele variante, o serie de sisteme comerciale au fost pclite n 80% dintre cazuri! n cazul aplicaiilor de autentificare a feelor, un studiu recent publicat n revista german ct a artat c unul dintre sistemele cele mai bune de pe pia, FaceVACS produs de ctre firma Cognitec (una dintre ctigtoarele detaate ale ultimei competiii Face Recognition Vendor Test!), poate fi fraudat prin prezentarea n faa senzorului optic a unei fotografii corespunztoare unei persoane autorizate sau rularea unui scurt fiier video. Ca urmare, firma a introdus o procedur suplimentar de detecie a prezenei fizice a unei persoane n faa senzorului (LiveCheck), ns acest element a ngreunat accesul utilizatorilor autorizai. De altfel, rularea unei nregistrri n care o persoan i mic uor capul dintr-o parte n alta a pclit din nou sistemul. Nici n cazul recunoaterii irisului situaia nu este cu mult mai bun, dei aceast informaie biometric este recunoscut ca fiind cea mai puin repetabil. Portia de intrare o reprezint particularitatea c multe sisteme comerciale preleveaz n realitate nu numai poriunea strict ocupat de iris, ci i o zon de dimensiune variabil din jurul acestuia. Astfel, jurnalitii de la aceeai revist german au efectuat un test cu sistemul Authenticam BM-ET100 produs de ctre firma Panasonic, folosind fotografia ochiului unei persoane autorizate, dar decupat n centru pentru a permite inspectarea irisului unei alte persoane, iar sistemul nu a sesizat diferena! Pe de alt parte ns, proiectarea imaginii digitizate a irisului unei persoane autorizate de pe ecranul unui notebook nu a reuit s pcleasc sistemul. Etica profesional Potenialul unei tehnologii biometrice trebuie judecat nu numai din punct de vedere tehnic, dar i din perspectiva unor poteniale utilizri abuzive. Exist o serie de decizii importante care trebuie luate nainte de introducerea n exploatare a unui astfel de sistem, printre care evidenierea nivelului satisfctor de performan, identificarea informaiilor private care sunt strict necesare, estimarea raportului dintre costuri i sporul de securitate pe care introducerea unei astfel de tehnologii l poate aduce. Rspunsul la aceste cerine trebuie s se bazeze pe un anumit cod de etic profesional, care s stipuleze explicit preocuparea proiectanilor pentru

46

CAPITOLUL 1: RECUNOATEREA FEELOR

aspecte ce in de protejarea datelor cu caracter personal i respectarea drepturilor omului, obligaia acestora de a furniza persoanelor cu putere de decizie, dar i publicului larg, date reale i complete despre performanele, constrngerile i limitele sistemului analizat, cu scopul de a contribui n cele din urm la mbuntirea calitii vieii i a siguranei utilizatorilor. De exemplu, n Marea Britanie au fost dezbateri aprinse pe marginea implementrii unui sistem ce urmeaz s stocheze informaii de natur biometric ale ntregii populaii, cu formularea unor temeri cu privire la fiabilitatea unei baze de date de asemenea dimensiuni i la consecinele critice ale compromiterii confidenialitii acestora. Unul dintre elementele cheie ale eticii profesionale l reprezint aprecierea obiectiv a performananelor unor astfel de sisteme, fr a le supraestima ntr-un mod nerealist numai din considerente de noutate a unui subiect aflat actualmente la mod, iar din acest punct de vedere menionm urmtoarele comentarii: "As methods of identification, however, biometric technologies are still imature, and one, face recognition, has been especially dissapointing. In a test this spring of a leading system, that of Jersey City, N.J.-based Visionics Corp. (now merged with Identix Inc., Minnetonka, Minn.), over half the faces in a mock terrorist database used at the Palm Beach (Fla.) International Airport were let through unflagged, while one person in every hundred to pass through the system was falsely labeled "terrorist" ". Steven Cherry, Senior Associate Editor, IEEE Spectrum, Septembrie 2002 The electronic passport puts up a Maginot line at the border, when what we really need is a comprehensive defense that impedes the aspiring terrorist but not innocent travelers at every step. Philip E. Ross, IEEE Spectrum, Ianuarie 2005

47

Bibliografie
[1] Bartlett, M.S., Movellan, J.R., Sejnowski, T.R., Face recognition by Independent Component Analysis, IEEE Trans. on Neural Networks, 13, pp. 1450-1464, 2002 [2] Belhumeur, P.N., Hespana, J.P., Kriegman, D.J., "Eigenfaces vs. fisherfaces: Recognition using class specific linear projection", IEEE Trans. PAMI, 19, no. 7, pp. 711-720, 1997 [3] Belhumeur, P.N., Kriegman, D.J., "What is the Set of Images of an Object under All Possible Illumination Conditions?", Int. J. Computer Vision, vol. 28, no. 3, pp. 1-16, 1998 [4] Ciocoiu, I.B., Reele neurale artificiale, Editura Cantes, Iai, 2001 [5] Face Recognition Homepage: www.face-rec.org/databases [6] Ge, X., Iwata, S., Learning the parts of objects by auto-association, Neural Networks, vol. 15, pp. 285-295, 2002 [7] Hoyer, P.O., Non-negative matrix factorization with sparseness constraints, J. Machine Learning Research, vol. 5, pp. 1457-1469, 2004 [8] IEEE Spectrum, vol. 41, no. 3, pp. 13, 2004 [9] Kong, S.G., Heo, J., Abidi, B.R., Paik, J., Abidi, M.A., Recent advances in visual and infrared face recognitiona review, Computer Vision Image Understansding,, vol. 97, pp. 103-135, 2005 [10] Kreutz, M., Volpel, B., Jansen, H., "Scale-Invariant Image Recognition Based on Higher Order Autocorrelation Features", Pattern Recognition, vol. 29, no. 1, pp. 19-26, 1996 [11] Kurita, T., Hotta, K., Mishima, T., "Scale and rotation invariant recognition method using high-order local autocorrelation features of log-polar image", Proc. Asian Conf. on Computer Vision, pp. 89-96, 1998 [12] Lai, J.H., Yuen, P.C., Feng, G.C., "Face Recognition Using Holistic Fourier Invariant Features", Pattern Recognition, vol. 34, pp. 95-109, 2001 [13] Lee, D.D., Seung, H.S., Learning the parts of objects by non-negative matrix factorization, Nature, 401, pp. 788-791, 1999 [14] Li, S.Z., Hou, X.W., Zhang, H.J., Learning spatially localized, parts-based representation, Proc. CVPR, 2001

48 [15] Liu, X., Chen, T., Vijaya Kumar, B.V.K., "Face Authentication for Multiple Subjects Using Eigenflow", CMU Technical Report AMP 01-05, 2001 [16] Liu, C., Wechsler, H., Independent component analysis of Gabor features for face recognition, IEEE Trans. Neural Networks, vol. 14, no. 4, pp. 919-928, 2003 [17] Moghaddam, B. , "Principal Manifolds and Probabilistic Subspaces for Visual Recognition", IEEE Trans. PAMI, vol. 24, no.6, 2002 [18] NIST Subcommittee on Biometrics: www.biometricscatalog.org [19] Penev, P., Atick, J., "Local feature analysis: A general statistical theory for object representation", Network: Computation in Neural Systems, vol. 7, no. 3, pp. 477-500, 1996 [20] Pentland, A., Moghaddam, B., Starner, T., "View-based and modular eigenspaces for face recognition", Proc. CVPR, pp. 84-91, 1994 [21] Piotrowski, L.N., Campbell, F.W., "A demonstration of the visual importance and flexibility of spatial-frequency, amplitude, and phase", Perception, vol. 11, pp. 337-346, 1982 [22] Shan, S., Chang, Y., Gao, W., Cao, B., Curse Of Mis-Alignment In Face Recognition: Problem And A Novel Mis-Alignment Learning Solution, Proc. AFGR, pp. 314-320, 2004 [23] Simard, P.Y., Le Cun, Y.A., Denker, J.S., Victorri, B., "Transformation Invariance in Pattern Recognition Tangent Distance and Tangent Propagation", Int. J. Imaging System and Technology, vol. 11, Issue 3, pp. 181-194, 2001 [24] Turk, M., Pentland, A.P., "Eigenfaces for recognition", J. of Cognitive Neuroscience, vol. 3, no. 1, pp. 71-86, 1991 [25] Wiskott, L., Fellous, J.-M., Kruger, N., von der Malsburg, C., "Face Recognition by Elastic Bunch Graph Matching", IEEE Trans. PAMI, vol. 17, no. 7. pp. 775-779, 1997 [26] Wu, J., Zhou, Z.H., Face recognition with one training image per person, Pattern Recognition Letters, vol. 23, pp. 1711-1719, 2002 [27] Yilmaz, A., Gokmen, M. , Eigenhill vs. eigenface and eigenedge, Pattern Recognition, vol. 34, pp. 181-184, 2001 [28] Zhao, W., Chellappa, R., Rosenfeld, A., Phillips, P.J., Face Recognition: A Literature Survey, ACM Computing Surveys, pp. 399-458, 2003

S-ar putea să vă placă și