Sunteți pe pagina 1din 12

Folosirea rețelelor neuronale în

clasificarea de imagini

Introducere
În zilele noastre, sistemele de supraveghere contribuie în mod vital la
securitatea publică. Dezvoltarea pronunțată a domeniului inteligenței
artificiale, în special inteligența artificială pentru procesarea de imagini
(Baidyk et al., 2016) (vezi Figura 1 de mai jos oferită de cei de la G2Crowd),
a facilitat analizarea videoclipurilor și a imaginilor preluate de camerele de
supraveghere (Kardas și Cicekli, 2017) și (Zhang et al., 2017).

O primă problemă care apare în mai multe studii recente a fost problema
detectării evenimentelor în supravegherea video (Cosar et al., 2017), care
necesită abilitatea de a identifica și localiza modelele spațio-temporale
specifice. În lucrarea (Guo et al., 2008) este tratată această problemă și
sunt propuse soluții pe baza monitorizării unei persoane și a acțiunilor
întreprinse de aceasta (vezi Figura 2).
O altă problemă actuală din analiza imaginilor video, care stârnește un mare
interes în cercetare, este problema de re-identificare a unei persoanei
(Ahmed et al., 2015). Re-identificarea unei persoane este o problemă
practică prin care se dorește identificarea aceleiași persoane în mai multe
imagini, care au fost realizate fie cu mai multe camere, fie cu o singură
cameră (vezi Figura 3). Re-identificarea este o funcție vitală pentru
sistemele de supraveghere, precum și pentru sistemele de interacțiune om-
calculator, pentru a facilita căutarea identității unei persoane în cantități
mari de videoclipuri și imagini (vezi Figura 4).

În mai multe situații, identificarea rasei unei persoane poate fi utilă pentru
sistemele de supraveghere. Identificarea rasei unei persoane se face în
primul rând pe baza procesării feței (Fu et al., 2014) (vezi Figura 5), dar se
folosesc și alte caracteristici pentru a îmbunătăți calitatea unui astfel de
sistem: caracteristici ce țin de aspect, regiuni discriminatorii locale,
combinarea informațiilor 2D și 3D, caracterisitic ce țin de mers, vorbit sau
gestică, etc. (vezi Figura 6).
În ultimii ani, mulți cercetători au trecut de la recunoașterea rasei pentru
grupurile de rasă populare, cum ar fi afro-americani, caucazieni și asiatici, la
grupurile sub-etnice cum ar fi coreenii, japonezii, chinezii și vietnamezii
(Bastanfard et al., 2007), (Gao et al., 2008), (Roh și Lee, 2007) și (Vo et al.,
2018).

În ultimii ani, rețelele sociale au devenit populare cu miliarde de utilizatori


din întreaga lume, cu milioane de informații partajate zilnic. Aceste rețele
sociale folosesc algoritmi de procesare a imaginilor, care permit
identificarea persoanelor, care se află în bazele lor de date  (vezi Figura 7 de
mai jos). În 2016, în lucrarea (Farnadi et al., 2016) autorii au oferit o analiză
detaliată a diferitelor metode de ultimă oră pentru recunoașterea
personalității în numeroase seturi de date de pe Facebook, Twitter și
YouTube.

Detectarea emoțiilor în imagini este o altă direcție actuală de cercetare


unde se dorește îmbunătățirea calității interacțiunii dintre un utilizator și o
aplicație (Bardhan et al., 2018). Se consideră că emoțiile sunt efectul
prezenței unui stimul în subiectul monitorizat și se dorește adaptarea
interacțiunii în funcție de aceste observații (Figura 8 prezintă tipurile de
emoții recunoscute prin procesarea de imagini).
Rețele neuronale
în Computer
Vision
În ultimii ani, rețelele neuronale profunde au fost utilizate din ce în ce mai
des în Computer vision, în special datorită performanțelor lor promițătoare.
Pentru problema clasificării imaginilor, în (Zhang et al., 2016) autorii au
propus o metodă nouă de învățare a caracteristicilor pentru clasificarea
imaginilor, cu performanțe foarte bune. În (Wei et al., 2016), autorii au
propus un model bazat pe o rețea neuronală flexibilă, pentru clasificarea
imaginilor folosind mai multe etichete. În Figura 9 putem vedea cum putem
decide cu o rețea neuronală adâncă dacă într-o imagine avem o pisică sau
un cățel.
În aplicațiile legate de identificarea feței există mai multe tipuri de abordări,
cum ar fi detectarea feței (Li et al., 2015), alinierea feței (Parka et al., 2017),
analiza expresiei feței (Chen et al, 2017), etc. În 2015, în (Li et al., 2015)
autorii au propus un model în cascadă construit pe o rețea neuronală cu o
capacitate discriminantă foarte puternică, menținând în același timp
performanțe ridicate pentru a rezolva problemele datorate poziției, expresiei
și iluminării, în detectarea feței în lumea reală. Analiza expresiei feței ar
putea fi aplicată în multe alte probleme cum ar fi evaluarea medicală,
detectarea minciunilor, interfața om-calculator, robotică, etc. În articolul
(Dao, 2018) se arată care sunt avantajele și dezavantajele folosirii
tehnologiilor de identificare a feței (vezi Figura 10 de mai jos).

În analiza video, problema re-identificării persoanei este una importantă. În


2015, în (Ahmed et al., 2015) autorii au propus o metodă de învățare în
paralel și o metrică de similitudine corespunzătoare pentru re-identificarea
persoanei. Autorii prezintă, de asemenea, un model convoluțional profund
cu straturi special conceput pentru a aborda problema re-identificării. Un
astfel de sistem folosește date de antrenament care sunt procesate cu
ajutorul rețelelor construite, construindu-se un model pe baza lor. Mai apoi
cu ajutorul acestui model se face clasificarea datelor de test (vezi Figura
11).

O altă problemă în analiza video este urmărirea unei ținte vizuale, care are o
gamă largă de aplicații, cum ar fi în navigația vehiculelor, în realitatea
augmentată, în supravegherea video, etc. În Figura 12 este un exemplu din
aplicația celor de la Stanford, Online Multi-Object Tracking (MOT).

Recunoașterea activității umane este o altă problemă în analiza video, care


a atras atenție în ultimii ani. În (Ronao și Cho, 2016), autorii au propus o
rețea eficientă pentru recunoașterea activității umane folosind senzorii de
la telefoanele inteligente. Abordarea lui D’Almeida care folosește deep
learning pentru a recunoaște activitățile umane este prezentată pe scurt în
arhitectura din Figura 13 de mai jos (D’Almeida, 2018).

Transferul
învățării
VGG este un model de rețea neuronală convoluțională propus în (Simonyan
și Zisserman, 2015), care atinge 92,7% precizie în ImageNet (Deng et al.,
2009), un set de date de peste 14 milioane de imagini aparținând a 1000 de
clase. Modelul VGG instruit are două forme diferite – VGG-16 și VGG-19 –
structura și parametrii acestora fiind disponibili gratuit online (în Figura 14
avem macro-arhitectura lui VGG-16). În (Hoo-Chang et al., 2016), autorii au
studiat aplicarea modelelor VGG precomprimate la problemele de detectare
asistate de calculator și au obținut rezultate promițătoare.

VGG-16 constă din 13 straturi convoluționale și trei straturi complet


conectate. În acest model, filtre mai mari (de exemplu, 5 X 5) sunt
construite din mai multe filtre mai mici (de exemplu, 3 X 3) (vezi Figura 15).
Prin urmare, toate straturile convoluționale au aceeași dimensiune filtru de
3 X 3. În total, VGG-16 necesită 138 M de ponderi. Modelul VGG a fost
utilizat în multe studii până acum (He et al., 2016), (Li et al., 2016), (Yang et
al., 2016).

În lucrarea (Vo et al., 2018), autorii și-au propus să identifice fețe


vietnameze. Pentru a efectua experimentul, ei au colectat informații despre
utilizatori de diferite vârste și rase de pe Facebook, inclusiv imagini. Aceste
conturi de pe Facebook au o varietate de imagini, cu posturi, accesorii,
iluminări și condiții de preluare a acestora diferite. Figura 16 prezintă
eșantioane de fețe vietnameze (în stânga) și altele (în dreapta).
Rezultatele experimentale din acest studiu au arătat că cea mai bună
precizie a fost de 88,87%. În alte cazuri examinate, modelele propuse au
obținut, de asemenea, o mare precizie în clasificarea altor seturi de date cu
alte rase, precum japoneză, chineză și braziliană.

S-ar putea să vă placă și