AROM

12 Revista Informatica Economica, nr.
10/1999
Algoritm pentru recunoasterea miscarii ntr-o secventa video
Georgeta DRULA
Universitatea Bucuresti
Algoritmii de recunoastere a obiectelor, formelor, vorbirii, miscarii sau gesticii constituie o

categorie specifica, ce caracterizeaza domeniul multimedia. Recunoasterea este o alta forma
de clasificare, care nu se mai bazeaza pe masurarea dimensiunilor si formelor obiectelor.
Descrierea bazata pe continut a imaginii se realizeaza n principal prin recunoasterea si
interpretarea unor caracteristici esentiale ale tipului de mediu, cum ar fi: culoarea, textura,
forma, locatia spatiala, regiunile de interes, caracteristicile faciale, cadrele cheie, detectarea
modificarilor de scena. Recunoasterea automata a caracteristicilor importante ale unui me-
diu necesita un algoritm corespunzator, ale caror criterii de optimizare sunt att micsorarea
costurilor, dar si asigurarea unei indexari consistente.
Cuvinte cheie: object-recognition, pattern-recognition, speech-recognition, motion-recogni-
tion, gesture-recognition, matching, corelare spatiala.
Algoritmii bazati pe continut desi mpart doreste a se gasi n imagine. Mecanismul

cteva trasaturi comune au fiecare un as- consta n suprapunerea mastii imagine de
pect propriu dependent de mediul tratat. referinta pe o alta imagine, pentru compa-
Recunoasterea bazata pe continut, complet rare pixel cu pixel.
automatizata este departe de a se realiza. Un algoritm deosebit din categoria celor de
Tendinta actua la care ar furniza rezultate recunoastere este cel ce permite extragerea
mai bune ar fi combinarea metodelor baza- caracteristicilor de miscare dintr-o secven-
te pe text cu cele bazate pe continut pentru ta video, lundu-se n considerare att ope-
descrierea imaginii si a miscarii. ratiile efectuate cu camera video (nclinare,
Metodele de recunoastere asigura clasifica- zoom) ct si continutul video prin ca-
rea prin comparare a obiectelor. Tehnica racteristicile sale temporale, algoritmul de
de egalizare sau matching a imaginii com- determinare a muchiilor n miscare (mo-
para portiuni de imagini unele cu altele. Ea ving edges) [Qu96]. Un astfel de algoritm
se realizeaza printr- un proces cunoscut ca este foarte important pentru luarea n con-
intercorelare spatiala. Tehnica implica siderare a continutului video prin carac-
compararea pixel cu pixel a unei imagini teristici temporale, folosite apoi la clasi-
mici, de referinta, ce contine un obiect de ficarea si regasirea cadrelor n relatie cu un
interes cu o alta imagine n analiza. O anumit eveniment. Miscarea este obtinuta
masca a imaginii de referinta apare ca o prin operatiile camerei de luat vederi,
imagine mica, ce nfatiseaza obiectul ce se
Revista Informatica Economica, nr. 10/1999 13
considerate la separarea si la reprezentarea maximala. Aceasta modalitate are cteva

continutului unui plan video. avantaje n comparatie cu modalitatile ti-
Algoritmul de recunoastere a miscarii care pice de trasare a muchiilor, care mai nti
determina muchiile n miscare ntre cadrele extrag muchiile din fiecare imagine si apoi
succesive se bazeaza pe sesizarea pozitiei determina miscarea prin corelatie: el nu ia
si a miscarii obiectelor din acestea si par- n considerare punctele de pe muchiile care
curge trei etape: nu se misca.
1. Procesarea imaginilor pentru a deter-
mina locatia muchiilor n miscare; 2. Calculul succesiunii cmpurilor ce de-
Modelarea datelor video se face ca un sir termina viteza punctelor muchiilor n mis-
de imagini ce variaza n timp, exprimate care de-a lungul mai multor cadre;
prin variabila I(x, y, t). Derivata partiala n Algoritmul implica selectarea punctelor
raport cu timpul a acesteia estimeaza dife- dominante ale muchiilor, distribuite n fie-
rentele dintre doua imagini cadru succesive care imagine-cadru, calculnd un cmp de
din secventa video: derulare initial si apoi netezind acest cmp
prin aplicarea unei restrictii. Pentru a asi-
D(x, y, t) = I(x, y, t + * t) - I(x, y, t) . gura mprastierea punctelor dominante se
divide imaginea cu muchii n miscare
Aceste imagini se convertesc n imagini Et(x,y,t) n zone de 10*10 pixeli si se selec-
formate din muchii spatio-temporale si se teaza un punct dominant n fiecare zona.
normalizeaza cu valori cuprinse n inter- Dintre punctele dominante se aleg numai
valul [0, 1]. Aceasta operatie permite o acelea cu mai mult de doua puncte vecine
multiplicare (M) echilibrata de pixeli pe si cu panta spatio-temporala cea mai mare.
imagini, n felul urmator: Setul de punctele dominante este indicat n
imaginea Et(x,y,t) ca Dt. De la acestea se
M x (x, y, t) = ( I(x, y, t) / x) * (I(x, y, t) / t) obtine un set initial de asemanari vector
M y (x, y, t) = ( I(x, y, t) / y ) * ( I(x, y, t) / t) prin calculul unei corelatii de diferente ab-
solute, pornind de la imaginea I(x,y,t) pna
Imaginile succesive cu muchii n miscare la imaginea I(x,y,t+ *t) pentru toate punc-
notate Et(x, y, t) si Et(x, y, t) se obtin din tele dominante Dt. Se produce o lista de
imaginile M(x y,t) si respectiv din Mt(x,y,t) asemanari posibile V(x e, ye) pentru fiecare
prin aplicarea unei suprimari nemaximale. punct din setul de puncte dominante,
Punctele muchiilor n miscare se calculea- (x e, ye) Dt.
za dupa suprimarea nemaximala. Aceasta lista de asemanari este ordonata
Algoritmul a fost implementat de pe un sir dupa resturile corelatiei diferentei absolute.
de date video full-frame necomprimat la 4 Lund n considerare asemanarea cea mai
cadre pe secunda. Punctele muchiilor n mare dintre punctele v(x e, ye) V(x e, ye) se
miscare se calculeaza dupa suprimarea ne- obtine un cmp initial de zgomot. Se ne-
14 Revista Informatica Economica, nr. 10/1999
tezeste cmpul vector prin aplicarea res-

trictiei de varianta, n felul urmator:
min ((dv / dS ) / v )dS = ( ) ( {)( v v' ) /( v v' v )}

A
xe, ye x ' e , y 'e
daca ||(x e, ye) - (xe, ye)|| N si minimul 0.
unde: 3. Gruparea vectorilor ntr-o succesiune

(xe, ye) (x e, ye); coerenta ce determina calea de miscare
v=v(x e, ye) V(x e, ye) si v=v(xe, ye) (directia) a obiectelor din imagine.
V(x e, ye) sunt vectorii selectati pentru Se consid era ca vectorii apropiati din ace-
(x e, ye) si respectiv (xe, ye). lasi cadru si punctul cu aceeasi directie
Scopul final este de a gasi un optim global generala apartin aceluiasi grup. Algoritmul
(x e, ye) pentru fiecare punct muchie ales determina iterativ grupurile corespunzatoa-
din candidatii posibili V(x e, ye). re din fiecare cadru, considernd pe rnd
Optimul se gaseste folosind un alt algo- fiecare vector. Daca nu exista un grup
ritm, ce minimizeaza varianta dintre puncte compatibil se creaza unul nou pentru a
prin modificarea vectorilor viteza n puncte putea include vectorul. Odata ce vectorii
si prin eliminarea vectorilor viteza redun- din fiecare cadru sunt grupati se aplica un
danti. Acest algoritm porneste cu setul de criteriu de trasare a caii de miscare a gru-
cele mai bune perechi locale care pot esti- purilor vector prin mai multe cadre. Direc-
ma cmpul. Procesul continua pna cnd tia medie a fiecarui grup prezice locatia
se creaza o diferenta mai mica dect o va- grupului n urmatorul cadru prin proiectie
loare prag sau se atinge numarul maxim de liniara.
iteratii. Rezultatul este supus procesului de Acest algoritm se poate aplica cu succes n
rafinare. Sunt posibile trei rafinari ntr-o sisteme multimedia de sinteza, virtuale sau
singura iteratie, si anume: virtualizate. Tragerea corecta n real-
- se schimba un vector v(x e, ye) cu un altul time a secventelor video mixate cu imagi-
(Vx,Vy) V(x e,ye), care provoaca o descres- nile de sinteza n cadrul studioului virtual
tere mare a expresiei anterioare, adica se este dependenta de pozitiile camerei de
depaseste o valoare prag Ts; luat vederi si de informatiile de z-mixing si
- se elimina punctele (x e,ye) redundante din de chromakeing ale acesteia. Masurarea
Dt. Un punct se considera redundant daca parametrilor camerei de luat vederi se rea-
prin eliminarea lui ar descreste suma cu lizeaza printr-un astfel de algoritm de esti-
mai mult dect un prag Td ; mare a miscarii ce masoara miscarea glo-
- adaugarea de noi puncte (x e, ye) n Dt. Se bala a imaginii la un grad nalt de acura-
adauga acele puncte a caror valoare ar tete.
creste suma cu mai putin dect o valoare Pentru captarea realitatii de virtualizat, sis-
prag Td . temul solicita folosirea mai multor camere
Revista Informatica Economica, nr. 10/1999 13
de luat vederi asezate n puncte esentiale

ce permit captarea detaliilor. Aceasta con- [BlBu96]
ditie impune sistemului de sinteza folosirea Blonde, L., Buck, M., Galli, R., A Virtual
unor algoritmi care sa poata manevra ace- Studio for Live Broadcasting: The Mona
easi imagine cu grade de luminanta dife- Lisa Project, IEEE Multimedia summer
rite. n plus, descrierea scenelor studioului 1996, vol. 3, no. 2
virtualizat se bazeaza pe structura geome- [GiAr98]
trica si fotometrica a tuturor suprafetelor Gibbs, S., Arapis, C., Breiteneder, C.,
vizibile dintr-o locatie data de camera de Lalioti, V., Virtual Studios: An Overview,
luat vederi. Pe acest considerent unghiul de IEEE Multimedia january - march 1998,
transcriere trebuie sa includa att orien- vol. 5. no. 1
tarea, ct si pozitia camerei. Distributia un- [KaRa97]
ghiurilor de transcriere si densitatea lor Kanade, T., Rander, P., Narayanan, P.,
este importanta pentru calitatea recons- J., Virtualized Reality: Constructing
tructiei virtualizate a evenimentelor. Si n Virtual Worlds from Real Scenes, IEEE
aceasta aplicatie este necesar un algoritm Multimedia january march 1997, vol. 4,
ce determina miscarea ca cel expus. O no. 1
cerinta impusa sistemului de sinteza mul- [MoTa97]
timedia si respectiv modelului sau este ace- Moezzi, S., Tai, L., Gerard, P., Virtual
ea de mentinere a sincronizarii imaginilor View Generation for 3D Digital Video,
scenei luate la acelasi moment de catre di- IEEE Multimedia january - march 1997,
feritele camere de luat vederi. Sincroni- vol. 4, no. 1
zarea imaginilor este cruciala pentru a vir- [Qu96]
tualiza corect evenimentele dependente de Quek, F., H., K., Unencumbered Gestural
timp, folosind algoritmi potriviti. Interaction, IEEE Multimedia 1996, vol. 4,
no. 3
Bibliografie [ZhLo97]
[***] Zhang, H., J., Low, C., Y., Smoliar, S.,
Advances in Fuzzy Logic, Neural Net- W., Wu, J., H., Video Parsing, Retrieval
works and Genetic Algorithms, Ed. Ta- and Browsing: An Integrated and Content-
keshi Fusuhashi, IEEE/Nagoya-University Based Solution, Http://www.iss.nus.sg/
World Wisepersons Workshop Nagoya, RND/MS/Projects/vc/vidorigin.html
Japan, August 1994, Selected Papers

AROM

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

AROM

Încărcat de

Drepturi de autor:

Formate disponibile

12 Revista Informatica Economica, nr.

Algoritm pentru recunoasterea miscarii ntr-o secventa video

Algoritmii de recunoastere a obiectelor, formelor, vorbirii, miscarii sau gesticii constituie o

Algoritmii bazati pe continut desi mpart doreste a se gasi n imagine. Mecanismul

considerate la separarea si la reprezentarea maximala. Aceasta modalitate are cteva

tezeste cmpul vector prin aplicarea res-

min ((dv / dS ) / v )dS = ( ) ( {)( v v' ) /( v v' v )}

daca ||(x e, ye) - (xe, ye)|| N si minimul 0.

unde: 3. Gruparea vectorilor ntr-o succesiune

de luat vederi asezate n puncte esentiale

S-ar putea să vă placă și