Algoritm pentru recunoasterea miscarii ntr-o secventa video
Georgeta DRULA Universitatea Bucuresti
Algoritmii de recunoastere a obiectelor, formelor, vorbirii, miscarii sau gesticii constituie o
categorie specifica, ce caracterizeaza domeniul multimedia. Recunoasterea este o alta forma de clasificare, care nu se mai bazeaza pe masurarea dimensiunilor si formelor obiectelor. Descrierea bazata pe continut a imaginii se realizeaza n principal prin recunoasterea si interpretarea unor caracteristici esentiale ale tipului de mediu, cum ar fi: culoarea, textura, forma, locatia spatiala, regiunile de interes, caracteristicile faciale, cadrele cheie, detectarea modificarilor de scena. Recunoasterea automata a caracteristicilor importante ale unui me- diu necesita un algoritm corespunzator, ale caror criterii de optimizare sunt att micsorarea costurilor, dar si asigurarea unei indexari consistente. Cuvinte cheie: object-recognition, pattern-recognition, speech-recognition, motion-recogni- tion, gesture-recognition, matching, corelare spatiala.
Algoritmii bazati pe continut desi mpart doreste a se gasi n imagine. Mecanismul
cteva trasaturi comune au fiecare un as- consta n suprapunerea mastii imagine de pect propriu dependent de mediul tratat. referinta pe o alta imagine, pentru compa- Recunoasterea bazata pe continut, complet rare pixel cu pixel. automatizata este departe de a se realiza. Un algoritm deosebit din categoria celor de Tendinta actua la care ar furniza rezultate recunoastere este cel ce permite extragerea mai bune ar fi combinarea metodelor baza- caracteristicilor de miscare dintr-o secven- te pe text cu cele bazate pe continut pentru ta video, lundu-se n considerare att ope- descrierea imaginii si a miscarii. ratiile efectuate cu camera video (nclinare, Metodele de recunoastere asigura clasifica- zoom) ct si continutul video prin ca- rea prin comparare a obiectelor. Tehnica racteristicile sale temporale, algoritmul de de egalizare sau matching a imaginii com- determinare a muchiilor n miscare (mo- para portiuni de imagini unele cu altele. Ea ving edges) [Qu96]. Un astfel de algoritm se realizeaza printr- un proces cunoscut ca este foarte important pentru luarea n con- intercorelare spatiala. Tehnica implica siderare a continutului video prin carac- compararea pixel cu pixel a unei imagini teristici temporale, folosite apoi la clasi- mici, de referinta, ce contine un obiect de ficarea si regasirea cadrelor n relatie cu un interes cu o alta imagine n analiza. O anumit eveniment. Miscarea este obtinuta masca a imaginii de referinta apare ca o prin operatiile camerei de luat vederi, imagine mica, ce nfatiseaza obiectul ce se Revista Informatica Economica, nr. 10/1999 13
considerate la separarea si la reprezentarea maximala. Aceasta modalitate are cteva
continutului unui plan video. avantaje n comparatie cu modalitatile ti- Algoritmul de recunoastere a miscarii care pice de trasare a muchiilor, care mai nti determina muchiile n miscare ntre cadrele extrag muchiile din fiecare imagine si apoi succesive se bazeaza pe sesizarea pozitiei determina miscarea prin corelatie: el nu ia si a miscarii obiectelor din acestea si par- n considerare punctele de pe muchiile care curge trei etape: nu se misca. 1. Procesarea imaginilor pentru a deter- mina locatia muchiilor n miscare; 2. Calculul succesiunii cmpurilor ce de- Modelarea datelor video se face ca un sir termina viteza punctelor muchiilor n mis- de imagini ce variaza n timp, exprimate care de-a lungul mai multor cadre; prin variabila I(x, y, t). Derivata partiala n Algoritmul implica selectarea punctelor raport cu timpul a acesteia estimeaza dife- dominante ale muchiilor, distribuite n fie- rentele dintre doua imagini cadru succesive care imagine-cadru, calculnd un cmp de din secventa video: derulare initial si apoi netezind acest cmp prin aplicarea unei restrictii. Pentru a asi- D(x, y, t) = I(x, y, t + * t) - I(x, y, t) . gura mprastierea punctelor dominante se divide imaginea cu muchii n miscare Aceste imagini se convertesc n imagini Et(x,y,t) n zone de 10*10 pixeli si se selec- formate din muchii spatio-temporale si se teaza un punct dominant n fiecare zona. normalizeaza cu valori cuprinse n inter- Dintre punctele dominante se aleg numai valul [0, 1]. Aceasta operatie permite o acelea cu mai mult de doua puncte vecine multiplicare (M) echilibrata de pixeli pe si cu panta spatio-temporala cea mai mare. imagini, n felul urmator: Setul de punctele dominante este indicat n imaginea Et(x,y,t) ca Dt. De la acestea se M x (x, y, t) = ( I(x, y, t) / x) * (I(x, y, t) / t) obtine un set initial de asemanari vector M y (x, y, t) = ( I(x, y, t) / y ) * ( I(x, y, t) / t) prin calculul unei corelatii de diferente ab- solute, pornind de la imaginea I(x,y,t) pna Imaginile succesive cu muchii n miscare la imaginea I(x,y,t+ *t) pentru toate punc- notate Et(x, y, t) si Et(x, y, t) se obtin din tele dominante Dt. Se produce o lista de imaginile M(x y,t) si respectiv din Mt(x,y,t) asemanari posibile V(x e, ye) pentru fiecare prin aplicarea unei suprimari nemaximale. punct din setul de puncte dominante, Punctele muchiilor n miscare se calculea- (x e, ye) Dt. za dupa suprimarea nemaximala. Aceasta lista de asemanari este ordonata Algoritmul a fost implementat de pe un sir dupa resturile corelatiei diferentei absolute. de date video full-frame necomprimat la 4 Lund n considerare asemanarea cea mai cadre pe secunda. Punctele muchiilor n mare dintre punctele v(x e, ye) V(x e, ye) se miscare se calculeaza dupa suprimarea ne- obtine un cmp initial de zgomot. Se ne- 14 Revista Informatica Economica, nr. 10/1999
tezeste cmpul vector prin aplicarea res-
trictiei de varianta, n felul urmator:
min ((dv / dS ) / v )dS = ( ) ( {)( v v' ) /( v v' v )}
A xe, ye x ' e , y 'e
daca ||(x e, ye) - (xe, ye)|| N si minimul 0.
unde: 3. Gruparea vectorilor ntr-o succesiune
(xe, ye) (x e, ye); coerenta ce determina calea de miscare v=v(x e, ye) V(x e, ye) si v=v(xe, ye) (directia) a obiectelor din imagine. V(x e, ye) sunt vectorii selectati pentru Se consid era ca vectorii apropiati din ace- (x e, ye) si respectiv (xe, ye). lasi cadru si punctul cu aceeasi directie Scopul final este de a gasi un optim global generala apartin aceluiasi grup. Algoritmul (x e, ye) pentru fiecare punct muchie ales determina iterativ grupurile corespunzatoa- din candidatii posibili V(x e, ye). re din fiecare cadru, considernd pe rnd Optimul se gaseste folosind un alt algo- fiecare vector. Daca nu exista un grup ritm, ce minimizeaza varianta dintre puncte compatibil se creaza unul nou pentru a prin modificarea vectorilor viteza n puncte putea include vectorul. Odata ce vectorii si prin eliminarea vectorilor viteza redun- din fiecare cadru sunt grupati se aplica un danti. Acest algoritm porneste cu setul de criteriu de trasare a caii de miscare a gru- cele mai bune perechi locale care pot esti- purilor vector prin mai multe cadre. Direc- ma cmpul. Procesul continua pna cnd tia medie a fiecarui grup prezice locatia se creaza o diferenta mai mica dect o va- grupului n urmatorul cadru prin proiectie loare prag sau se atinge numarul maxim de liniara. iteratii. Rezultatul este supus procesului de Acest algoritm se poate aplica cu succes n rafinare. Sunt posibile trei rafinari ntr-o sisteme multimedia de sinteza, virtuale sau singura iteratie, si anume: virtualizate. Tragerea corecta n real- - se schimba un vector v(x e, ye) cu un altul time a secventelor video mixate cu imagi- (Vx,Vy) V(x e,ye), care provoaca o descres- nile de sinteza n cadrul studioului virtual tere mare a expresiei anterioare, adica se este dependenta de pozitiile camerei de depaseste o valoare prag Ts; luat vederi si de informatiile de z-mixing si - se elimina punctele (x e,ye) redundante din de chromakeing ale acesteia. Masurarea Dt. Un punct se considera redundant daca parametrilor camerei de luat vederi se rea- prin eliminarea lui ar descreste suma cu lizeaza printr-un astfel de algoritm de esti- mai mult dect un prag Td ; mare a miscarii ce masoara miscarea glo- - adaugarea de noi puncte (x e, ye) n Dt. Se bala a imaginii la un grad nalt de acura- adauga acele puncte a caror valoare ar tete. creste suma cu mai putin dect o valoare Pentru captarea realitatii de virtualizat, sis- prag Td . temul solicita folosirea mai multor camere Revista Informatica Economica, nr. 10/1999 13
de luat vederi asezate n puncte esentiale
ce permit captarea detaliilor. Aceasta con- [BlBu96] ditie impune sistemului de sinteza folosirea Blonde, L., Buck, M., Galli, R., A Virtual unor algoritmi care sa poata manevra ace- Studio for Live Broadcasting: The Mona easi imagine cu grade de luminanta dife- Lisa Project, IEEE Multimedia summer rite. n plus, descrierea scenelor studioului 1996, vol. 3, no. 2 virtualizat se bazeaza pe structura geome- [GiAr98] trica si fotometrica a tuturor suprafetelor Gibbs, S., Arapis, C., Breiteneder, C., vizibile dintr-o locatie data de camera de Lalioti, V., Virtual Studios: An Overview, luat vederi. Pe acest considerent unghiul de IEEE Multimedia january - march 1998, transcriere trebuie sa includa att orien- vol. 5. no. 1 tarea, ct si pozitia camerei. Distributia un- [KaRa97] ghiurilor de transcriere si densitatea lor Kanade, T., Rander, P., Narayanan, P., este importanta pentru calitatea recons- J., Virtualized Reality: Constructing tructiei virtualizate a evenimentelor. Si n Virtual Worlds from Real Scenes, IEEE aceasta aplicatie este necesar un algoritm Multimedia january march 1997, vol. 4, ce determina miscarea ca cel expus. O no. 1 cerinta impusa sistemului de sinteza mul- [MoTa97] timedia si respectiv modelului sau este ace- Moezzi, S., Tai, L., Gerard, P., Virtual ea de mentinere a sincronizarii imaginilor View Generation for 3D Digital Video, scenei luate la acelasi moment de catre di- IEEE Multimedia january - march 1997, feritele camere de luat vederi. Sincroni- vol. 4, no. 1 zarea imaginilor este cruciala pentru a vir- [Qu96] tualiza corect evenimentele dependente de Quek, F., H., K., Unencumbered Gestural timp, folosind algoritmi potriviti. Interaction, IEEE Multimedia 1996, vol. 4, no. 3 Bibliografie [ZhLo97] [***] Zhang, H., J., Low, C., Y., Smoliar, S., Advances in Fuzzy Logic, Neural Net- W., Wu, J., H., Video Parsing, Retrieval works and Genetic Algorithms, Ed. Ta- and Browsing: An Integrated and Content- keshi Fusuhashi, IEEE/Nagoya-University Based Solution, Http://www.iss.nus.sg/ World Wisepersons Workshop Nagoya, RND/MS/Projects/vc/vidorigin.html Japan, August 1994, Selected Papers