Sunteți pe pagina 1din 4

12 Revista Informatica Economica, nr.

10/1999

Algoritm pentru recunoasterea miscarii ntr-o secventa video

Georgeta DRULA
Universitatea Bucuresti

Algoritmii de recunoastere a obiectelor, formelor, vorbirii, miscarii sau gesticii constituie o


categorie specifica, ce caracterizeaza domeniul multimedia. Recunoasterea este o alta forma
de clasificare, care nu se mai bazeaza pe masurarea dimensiunilor si formelor obiectelor.
Descrierea bazata pe continut a imaginii se realizeaza n principal prin recunoasterea si
interpretarea unor caracteristici esentiale ale tipului de mediu, cum ar fi: culoarea, textura,
forma, locatia spatiala, regiunile de interes, caracteristicile faciale, cadrele cheie, detectarea
modificarilor de scena. Recunoasterea automata a caracteristicilor importante ale unui me-
diu necesita un algoritm corespunzator, ale caror criterii de optimizare sunt att micsorarea
costurilor, dar si asigurarea unei indexari consistente.
Cuvinte cheie: object-recognition, pattern-recognition, speech-recognition, motion-recogni-
tion, gesture-recognition, matching, corelare spatiala.

Algoritmii bazati pe continut desi mpart doreste a se gasi n imagine. Mecanismul


cteva trasaturi comune au fiecare un as- consta n suprapunerea mastii imagine de
pect propriu dependent de mediul tratat. referinta pe o alta imagine, pentru compa-
Recunoasterea bazata pe continut, complet rare pixel cu pixel.
automatizata este departe de a se realiza. Un algoritm deosebit din categoria celor de
Tendinta actua la care ar furniza rezultate recunoastere este cel ce permite extragerea
mai bune ar fi combinarea metodelor baza- caracteristicilor de miscare dintr-o secven-
te pe text cu cele bazate pe continut pentru ta video, lundu-se n considerare att ope-
descrierea imaginii si a miscarii. ratiile efectuate cu camera video (nclinare,
Metodele de recunoastere asigura clasifica- zoom) ct si continutul video prin ca-
rea prin comparare a obiectelor. Tehnica racteristicile sale temporale, algoritmul de
de egalizare sau matching a imaginii com- determinare a muchiilor n miscare (mo-
para portiuni de imagini unele cu altele. Ea ving edges) [Qu96]. Un astfel de algoritm
se realizeaza printr- un proces cunoscut ca este foarte important pentru luarea n con-
intercorelare spatiala. Tehnica implica siderare a continutului video prin carac-
compararea pixel cu pixel a unei imagini teristici temporale, folosite apoi la clasi-
mici, de referinta, ce contine un obiect de ficarea si regasirea cadrelor n relatie cu un
interes cu o alta imagine n analiza. O anumit eveniment. Miscarea este obtinuta
masca a imaginii de referinta apare ca o prin operatiile camerei de luat vederi,
imagine mica, ce nfatiseaza obiectul ce se
Revista Informatica Economica, nr. 10/1999 13

considerate la separarea si la reprezentarea maximala. Aceasta modalitate are cteva


continutului unui plan video. avantaje n comparatie cu modalitatile ti-
Algoritmul de recunoastere a miscarii care pice de trasare a muchiilor, care mai nti
determina muchiile n miscare ntre cadrele extrag muchiile din fiecare imagine si apoi
succesive se bazeaza pe sesizarea pozitiei determina miscarea prin corelatie: el nu ia
si a miscarii obiectelor din acestea si par- n considerare punctele de pe muchiile care
curge trei etape: nu se misca.
1. Procesarea imaginilor pentru a deter-
mina locatia muchiilor n miscare; 2. Calculul succesiunii cmpurilor ce de-
Modelarea datelor video se face ca un sir termina viteza punctelor muchiilor n mis-
de imagini ce variaza n timp, exprimate care de-a lungul mai multor cadre;
prin variabila I(x, y, t). Derivata partiala n Algoritmul implica selectarea punctelor
raport cu timpul a acesteia estimeaza dife- dominante ale muchiilor, distribuite n fie-
rentele dintre doua imagini cadru succesive care imagine-cadru, calculnd un cmp de
din secventa video: derulare initial si apoi netezind acest cmp
prin aplicarea unei restrictii. Pentru a asi-
D(x, y, t) = I(x, y, t + * t) - I(x, y, t) . gura mprastierea punctelor dominante se
divide imaginea cu muchii n miscare
Aceste imagini se convertesc n imagini Et(x,y,t) n zone de 10*10 pixeli si se selec-
formate din muchii spatio-temporale si se teaza un punct dominant n fiecare zona.
normalizeaza cu valori cuprinse n inter- Dintre punctele dominante se aleg numai
valul [0, 1]. Aceasta operatie permite o acelea cu mai mult de doua puncte vecine
multiplicare (M) echilibrata de pixeli pe si cu panta spatio-temporala cea mai mare.
imagini, n felul urmator: Setul de punctele dominante este indicat n
imaginea Et(x,y,t) ca Dt. De la acestea se
M x (x, y, t) = ( I(x, y, t) / x) * (I(x, y, t) / t) obtine un set initial de asemanari vector
M y (x, y, t) = ( I(x, y, t) / y ) * ( I(x, y, t) / t) prin calculul unei corelatii de diferente ab-
solute, pornind de la imaginea I(x,y,t) pna
Imaginile succesive cu muchii n miscare la imaginea I(x,y,t+ *t) pentru toate punc-
notate Et(x, y, t) si Et(x, y, t) se obtin din tele dominante Dt. Se produce o lista de
imaginile M(x y,t) si respectiv din Mt(x,y,t) asemanari posibile V(x e, ye) pentru fiecare
prin aplicarea unei suprimari nemaximale. punct din setul de puncte dominante,
Punctele muchiilor n miscare se calculea- (x e, ye) Dt.
za dupa suprimarea nemaximala. Aceasta lista de asemanari este ordonata
Algoritmul a fost implementat de pe un sir dupa resturile corelatiei diferentei absolute.
de date video full-frame necomprimat la 4 Lund n considerare asemanarea cea mai
cadre pe secunda. Punctele muchiilor n mare dintre punctele v(x e, ye) V(x e, ye) se
miscare se calculeaza dupa suprimarea ne- obtine un cmp initial de zgomot. Se ne-
14 Revista Informatica Economica, nr. 10/1999

tezeste cmpul vector prin aplicarea res-


trictiei de varianta, n felul urmator:

min ((dv / dS ) / v )dS = ( ) ( {)( v v' ) /( v v' v )}


A
xe, ye x ' e , y 'e

daca ||(x e, ye) - (xe, ye)|| N si minimul 0.

unde: 3. Gruparea vectorilor ntr-o succesiune


(xe, ye) (x e, ye); coerenta ce determina calea de miscare
v=v(x e, ye) V(x e, ye) si v=v(xe, ye) (directia) a obiectelor din imagine.
V(x e, ye) sunt vectorii selectati pentru Se consid era ca vectorii apropiati din ace-
(x e, ye) si respectiv (xe, ye). lasi cadru si punctul cu aceeasi directie
Scopul final este de a gasi un optim global generala apartin aceluiasi grup. Algoritmul
(x e, ye) pentru fiecare punct muchie ales determina iterativ grupurile corespunzatoa-
din candidatii posibili V(x e, ye). re din fiecare cadru, considernd pe rnd
Optimul se gaseste folosind un alt algo- fiecare vector. Daca nu exista un grup
ritm, ce minimizeaza varianta dintre puncte compatibil se creaza unul nou pentru a
prin modificarea vectorilor viteza n puncte putea include vectorul. Odata ce vectorii
si prin eliminarea vectorilor viteza redun- din fiecare cadru sunt grupati se aplica un
danti. Acest algoritm porneste cu setul de criteriu de trasare a caii de miscare a gru-
cele mai bune perechi locale care pot esti- purilor vector prin mai multe cadre. Direc-
ma cmpul. Procesul continua pna cnd tia medie a fiecarui grup prezice locatia
se creaza o diferenta mai mica dect o va- grupului n urmatorul cadru prin proiectie
loare prag sau se atinge numarul maxim de liniara.
iteratii. Rezultatul este supus procesului de Acest algoritm se poate aplica cu succes n
rafinare. Sunt posibile trei rafinari ntr-o sisteme multimedia de sinteza, virtuale sau
singura iteratie, si anume: virtualizate. Tragerea corecta n real-
- se schimba un vector v(x e, ye) cu un altul time a secventelor video mixate cu imagi-
(Vx,Vy) V(x e,ye), care provoaca o descres- nile de sinteza n cadrul studioului virtual
tere mare a expresiei anterioare, adica se este dependenta de pozitiile camerei de
depaseste o valoare prag Ts; luat vederi si de informatiile de z-mixing si
- se elimina punctele (x e,ye) redundante din de chromakeing ale acesteia. Masurarea
Dt. Un punct se considera redundant daca parametrilor camerei de luat vederi se rea-
prin eliminarea lui ar descreste suma cu lizeaza printr-un astfel de algoritm de esti-
mai mult dect un prag Td ; mare a miscarii ce masoara miscarea glo-
- adaugarea de noi puncte (x e, ye) n Dt. Se bala a imaginii la un grad nalt de acura-
adauga acele puncte a caror valoare ar tete.
creste suma cu mai putin dect o valoare Pentru captarea realitatii de virtualizat, sis-
prag Td . temul solicita folosirea mai multor camere
Revista Informatica Economica, nr. 10/1999 13

de luat vederi asezate n puncte esentiale


ce permit captarea detaliilor. Aceasta con- [BlBu96]
ditie impune sistemului de sinteza folosirea Blonde, L., Buck, M., Galli, R., A Virtual
unor algoritmi care sa poata manevra ace- Studio for Live Broadcasting: The Mona
easi imagine cu grade de luminanta dife- Lisa Project, IEEE Multimedia summer
rite. n plus, descrierea scenelor studioului 1996, vol. 3, no. 2
virtualizat se bazeaza pe structura geome- [GiAr98]
trica si fotometrica a tuturor suprafetelor Gibbs, S., Arapis, C., Breiteneder, C.,
vizibile dintr-o locatie data de camera de Lalioti, V., Virtual Studios: An Overview,
luat vederi. Pe acest considerent unghiul de IEEE Multimedia january - march 1998,
transcriere trebuie sa includa att orien- vol. 5. no. 1
tarea, ct si pozitia camerei. Distributia un- [KaRa97]
ghiurilor de transcriere si densitatea lor Kanade, T., Rander, P., Narayanan, P.,
este importanta pentru calitatea recons- J., Virtualized Reality: Constructing
tructiei virtualizate a evenimentelor. Si n Virtual Worlds from Real Scenes, IEEE
aceasta aplicatie este necesar un algoritm Multimedia january march 1997, vol. 4,
ce determina miscarea ca cel expus. O no. 1
cerinta impusa sistemului de sinteza mul- [MoTa97]
timedia si respectiv modelului sau este ace- Moezzi, S., Tai, L., Gerard, P., Virtual
ea de mentinere a sincronizarii imaginilor View Generation for 3D Digital Video,
scenei luate la acelasi moment de catre di- IEEE Multimedia january - march 1997,
feritele camere de luat vederi. Sincroni- vol. 4, no. 1
zarea imaginilor este cruciala pentru a vir- [Qu96]
tualiza corect evenimentele dependente de Quek, F., H., K., Unencumbered Gestural
timp, folosind algoritmi potriviti. Interaction, IEEE Multimedia 1996, vol. 4,
no. 3
Bibliografie [ZhLo97]
[***] Zhang, H., J., Low, C., Y., Smoliar, S.,
Advances in Fuzzy Logic, Neural Net- W., Wu, J., H., Video Parsing, Retrieval
works and Genetic Algorithms, Ed. Ta- and Browsing: An Integrated and Content-
keshi Fusuhashi, IEEE/Nagoya-University Based Solution, Http://www.iss.nus.sg/
World Wisepersons Workshop Nagoya, RND/MS/Projects/vc/vidorigin.html
Japan, August 1994, Selected Papers

S-ar putea să vă placă și