Sunteți pe pagina 1din 3

Identificarea persoanelor in timp real

1.1Plan Sarcina de a identifica persoane se poate divide in trei pasi principali: detectarea, urmarirea si identificarea-vezi fig.1. Scopul este dupa aceea de a crea. Detectarea, urmarirea si identificarea fiecarei persoane de catre un web-cam este realizata in trei moduri. Cand o noua persoana este detectata de catre senzorul de detectare, senzorul de urmarire instantiaza pentru a urmari acea persoana.

3.1 Detectarea faciala Primul pas in procesare este detectarea fetei unde un detector facial frontal ruleaza o data pe secunda pentru a obtine noi evidente. Acest detector este bazat pe detectorul facial frontal Viola-Jones [23] si accesorii de Lienhart [12] si are o viteza moderata, fiind capabil sa proceseze fiecare cadru in aproximativ 200 ms. Capacitatea detectorului facial este un set de pozitii faciale (formula) unde pozitia este un vector care contine coordonatele spatiale (xd, yd) ale centrului fetei si scala wd. Cand o noua fata Pd este detectata, este comparata cu toate celelalte fete urmarite (formula) si o noua urmarire este inceputa daca Pd nu suprapune alta Pt mai mult de un sfert din suprafata sa.

3.2 Urmarirea faciala Inspirat de dispozitivul de urmarire cu relevant vectoriala (RVM) a lui Williams et al. [24] am implementat un dispozitiv de urmarire de baza regularizat utilizand functii de baza radiale (RBF). Aceasta alegere, pe langa cea a RVM este motivate prin lipsa de moderatie care este in general prezenta la un RVM setat pentru urmarire. Acesta este sustinut de catre dispozitivul general de regresie a lui Mayol si Murry [13] care au afirmat ca moderatia indusa de RVM este in detrimental performantei de urmarire deoarece setul de nuclei dupa pregatire este incomplet. Dup ace o noua fata Pd a fost detectata, dispozitivul introduce o caracteristica de pregatire unde sunt colectate mostre ale fetelor persoanelor peste un numar de cadre utilizand o versiune localizata a detectorului facial, unde regiunea de cautare a cadrului i+1 este centrata pe fata detectata a cadrului I si are o latime egala cu (formula). Dup ace un numar fix de modele de fete au fost detectate, un set de perechi de imagini/tinte {v,t} prin esantionarea spatiului 3D de decodificari si scale pe o grila uniforma cu N=192 elemente (vezi fig.2). Aici, t=(dx,dy,dw) si variaza intre (+,- 10; +,- 10; +,-5) intr-un cadru de referinta canonic unde imaginea fetei are dimeniuni de 40x40 pixeli. Fiecare pachet de imagini v este apoi scalat la cadrul

de referinta, neclaritatea Gaussian si histograma reducand efectul de luminozitate. Un regresor de baza este apoi pregatit pentru fiecare dimensiune a caracteristicii. Regresorul de baza modeleaza variabila tinta t(v,w) ca o combinative liniara a unui numar fix a N+1 functii neliniare (formula) a variabilelor v rezultate. (formula) Unde w=(formula) si (formula) cu (formula) pentru a explica. Aici, N este un numar de mostre iar functia nucleu (formula) este o functie radiala de baza centrata pe vectorul vj. Cu un set de perechi N(tj,vj), ponderile w pot fi estimate plasand un regularizator patratic pe baza lor si minimalizand eroarea functiei sumei patratice ca in coasta de regresie [4] sa fie (formula). Aici, elementul I si j ai este rezultatul aplicarii functiei j neliniare, vectorului I furnizat j(vj) si t=(t1,..tN) si este un parametru care controleaza netezimea solutiei. Intrarea fiecarui regresor in cadrul i+1 este un pachet de imagini extras din imaginea curenta la locul de fata din cadrul I, pi=(xi,yi.wi). Acesta este extras in acelasi fel in care se calculeaza vectorii. Capacitatea celor trei regresori ai cadrului i+1 este apoi o estimare a modificarii pozitiei in cadrul canonic de referinta. Prin urmare, pozitia in cadrul i+1 este apoi (formula), unde (formula) este trasformarea (dx,dy,dw) din cadrul canonic de referinta intr-o imagine in spatiu. Structura cadrului de regresie estimeaza scala si translatiile compensatorii, dar nu estimeaza rotatiile capului; oricum, depinzand de variabilitatea vectorilor, poate urmari clar chipul unei persoane cu usoare rotatii (fig.1). Acesta expune un scenariu similar esuat dispozitivului de urmarire RVM unde evidentele parasesc tinta atunci cand capul persoanei este rotit cu mai mult de 30 de grade fata de axa verticala. Rotatiile apropiate de axa orizontala tind sa fie mici si nu afecteaza semnificativ.

3.3 Recunoasterea faciala Sistemul de recunaostere faciala foloseste modelul structurii pictoriale a lui Everingham et al. [17] pentru a localiza 9 caracteristici faciale la colturile ochilor, nasului si gurii (fig.1). Patru caracteristici suplimentare sunt adaugate la centrul ambilor ochi, gura si nas. Regiunea fetei definita de caracteristicile faciale este normalizata cu privire la aspectul canonic pentru a reduce efectele scalare si rotatiile capului in planul exterior. O transformare afina este calculata intre setul caracteristicilor canonice si caracteristicile faciale. Utilizand tranformarea afina, regiuni care au fost partial in cadrul canonic de referinta, sunt extrase din regiuni care corespund eliptic, in chipul urmarit. Aceste 13 pachete de imagini (f113) sunt apoi normalizate pentru a avea media zero si unitate de variatie, si sunt concatenate pentru a forma un singur vector care reprezinta fata persoanei (F) ca in

(formula). Cadrul canonic de referinta are dimensiuni de 80x80 de pixeli in timp ce pachetele de imagini extrase au un diametru de 15 pixeli. Pentru a clasifica chipurile se foloseste un clasificator oarecare cu 17 nivele, unde testul de la nodul n este o comparatie intre 2 elemente (pn si qn) a descriptorului F, care sunt alese aleatoriu. In acest caz, elementul F(pn) si F (qn) sunt comparate utilizand operatorul (F(pn)<F(qn)). Cum am mentionat mai sus, rezultatul trimiterii unui nou test descriptor de stabilire a unui clasificator aleatoriu este o distributie posterioara claselor (formula). In cel mai simplu caz, eticheta data de descriptor poate fi luata ca argmaxc a distributiei; oricum. In situatia aceasta, avem cunostintele suplimentare a fetelor multiple la fiecare urmarire (formula). Prin urmare, doua optiuni sunt disponibile in clasificarea fetelor urmarite. In primul rand, putem lua max peste setul de posterioare si fete (formula) Pe care il etichetam ca rezultat max-max. In al doilea rand, luam masuri de protectie pentru fetele din setul de date pentru a obtine rezultatul max-sum. (formula) Ca o alternativa, pregatim un clasificator pentru fiecare caracteristica faciala. Pentru a clasifica un nou descriptor F, luam masuri de protectie pentru caracteristicile faciale (fi)prin insumarea posterioarelor restituite din fiecare clasificator (formula) , apoi aplicam fie varianta max-max sau max-sum. Etichetam aceste clasificari max-max-sum, respectiv max-sum-sum, si comparam clasificarea acestor variante in sectiunea 5.

S-ar putea să vă placă și