DetRecunObj CNN

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/345890254
Detecția și recunoașterea de obiecte & voce prin intermediul rețelelor

convoluționale adânci pe platforme Raspberry Pi 4
Article · November 2020
CITATIONS READS
0 808
1 author:
Bogdan-Alexandru Soare
Polytechnic University of Bucharest
5 PUBLICATIONS 0 CITATIONS
SEE PROFILE
All content following this page was uploaded by Bogdan-Alexandru Soare on 15 November 2020.
The user has requested enhancement of the downloaded file.

Detecția și recunoașterea de obiecte & voce
prin intermediul rețelelor convoluționale
adânci pe platforme Raspberry Pi 4
Bogdan-Alexandru SOARE
Ingineria Informației și a Sistemelor de Calcul
Facultatea de Electronică, Telecomunicații și Tehnologia Informației
Universitatea Politehnica din București, România
soare990@gmail.com
Abstract: Lucrarea curentă are ca scop prezentarea pentru task-ul de detectare, metoda R-CNN îmbunătățește
noțiunilor teoretice cât și practice în ceea ce privește foarte mult precizia și depășește metoda tradițională de
dezvoltarea și utilizarea de rețele neuronale convoluționale detectare a obiectelor cu 29%.
adânci punând accent pe detecția în timp real a obiectelor,
clasificarea imaginilor, detecția facială și recunoașterea
vorbirii.
Metodele bazate pe rețele neuronale convoluționale
adânci au obținut rezultate foarte bune în clasificarea
imaginilor și detecția obiectelor așa cum se poate observa
în cadrul lucrării.
Principalul subiect al acestei lucrări îl constituie
implementarea tuturor acestor algoritmi în cadrul
sistemelor de tip embedded, IoT pe platforma de
dezvoltare RaspberryPi 4.
1. INTRODUCERE
Fig. 1 Diferența între Recunoașterea/ Detecția de obiecte
Identificarea și recunoașterea obiectelor este o zonă

1.1 Computer Vision
din domeniul inteligenței artificiale care se concentrează
pe construcția de roboți capabili să recunoască diferite
clase de obiecte. Reprezintă știința sistemelor informatice care
recunoaște și analizează diferite imagini și scene. O
Pe măsură ce mașinile, care au la bază algoritmi de
inteligentă artificială, sunt integrate din ce în ce mai mult componentă cheie a viziunii computerizate este detecția
în viața de zi cu zi a oamenilor, domeniul Machine obiectelor. Detectarea obiectelor este utilizată pentru a
efectua o serie de activități din cadrul inteligenței
Learning aduce îmbunătățiri în ceea ce privește abilitățile
de detecție și recunoaștere a obiectelor. artificiale precum recunoașterea facială, detecția
emoțiilor, detectarea de vehicule și conducerea automată a
Considerând faptul că termenii: detecție și
autovehiculelor.
recunoaștere de obiecte sunt des confundați voi face o
scurtă clarificare a diferențelor dintre aceștia. Detectarea obiectelor este o tehnică din cadrul
Computer Vision, care realizează identificarea și
Recunoașterea de imagini are rolul de a atribui o etichetă
ce conține lucrurile/obiectele identificate în cadrul unei localizarea obiectelor dintr-o imagine sau secvență de
imagini.
imagini, în timp ce detecția de obiecte urmărește plasarea
unui cadru în jurul fiecărui obiect identificat, în același Detectarea obiectelor descrie un sistem care poate
timp atașând o eticheta cu reprezentarea clasei din care identifica prezența și locația unuia sau a mai multor
obiecte sau corpuri dorite în cadrul unei imagini.
acesta face parte.
Rezultatul unui proces de detecție a obiectelor este o
Progresele recente în detectarea obiectelor sunt
determinate de succesul metodei R-CNN(Regions CNN). imagine ce prezintă delimitări bine încadrate în jurul
obiectelor de interes și o indicație cu privire la instanța
Folosind un CNN preantrenat pe seturi mari de date pentru
task-ul de clasificare a imaginilor ulterior fiind reglat fin clasei atribuită [1].
1.2 Aplicații ale detecției de obiecte [2]: 2. DETECȚIA OBIECTELOR ÎN TIMP REAL
Vehicule autonome(Autonomous vehicles) - unul
dintre domeniile care folosesc într-o mare măsură În acest capitol vom parcurge modul de funcționare a
algoritmii de detecție a obiectelor îl reprezintă vehiculele detecției de obiecte folosind modelul deep neural network.
autonome. Acestea au în alcătuirea lor un sistem integrat Detecția de obiecte are rolul de a prezenta un număr
care poate efectua detectarea în timp real în cadrul mai arbitrar de chenare care să indice clasele de obiecte dintr-
multor clase de obiecte având capacitatea de a lua decizii o imagine. Fiecare chenar de delimitare asociază o clasă și
în funcție de rezultatul propriei clasificări. o valoare de încredere pentru obiectul identificat.
De exemplu, sistemul unui vehicul autonom poate detecta Modelele de detecție de obiecte bazate pe deep
o persoană ce traversează strada iar în urma detecției poate learning sunt de obicei alcătuite din două părți. Un
acționa în consecintă, prin execuția unei rutine de urgență codificator ia imaginea ca intrare, o rulează printr-o serie
pentru oprirea vehiculului. de blocuri și straturi capabile să extragă caracteristici
statistice utilizate pentru localizarea și etichetarea
Detecția feței(Face detection) – reprezintă sistemul obiectelor. Ieșirea codificatorului este transmisă unui
care poate localiza și recunoaște automat fețele umane în decodor care prezice poziția chenarelor și a etichetelor
cadrul imaginilor sau secvențelor continue de imagini. pentru noile obiecte identificate [4].
Algoritmii de detectare a feței sunt prezenți în aplicațiile Cel mai simplu decodificator este un sistem de
asociate recunoașterii faciale, fotografiei și capturilor regresie. Regresorul este conectat la ieșirea codificatorului
video. prezicând locația și dimensiunea fiecărui chenar de
delimitare. Ieșirea modelului este reprezentată de perechea
Estimarea poziției(Pose Estimation) - procesul de de coordonate X, Y pentru obiectul identificat.
deducere a locației principalelor articulații ale unui corp În continuare voi introduce noțiunea de Intersecion-
uman din cadrul imaginilor și secvențelor de imagini. of-Union (IoU) sau intersecție a reuniunii. Acest element
Diferite forme ale estimării poziției sunt prezente în are rolul de a evalua daca un chenar prezis de către sistem
aplicații precum recunoașterea acțiunilor, interacțiunilor se potrivește cu poziția reală a obiectului vizat. Pentru
umane, crearea de medii pentru realitatea virtuală și două chenare distincte A și B, IoU este definit ca fracția
jocurile video 3D. dintre intersecția și reuniunea ariei acestora [5]:
Recunoașterea de obiecte(Object recognition) – 𝐴 ∩ 𝐵

procesul de identificare a clasei la care este asociat un 𝐼𝑜𝑈 =
𝐴 ∪ 𝐵
obiect țintă. Recunoașterea și detectarea de obiecte sunt
tehnici cu rezultate finale și abordări de implementare Dacă predicția este corect etichetată și valoarea IoU nu
similare. Conceptual, notăm faptul că procesul de detecție este mai mică decât un prag setat anterior, această predicție
apare înaintea pașilor procesului de recunoaștere a este considerată drept un exemplu pozitiv, altfel va fi
obiectului considerată drept exemplu negativ. Spre exemplu în Fig. 2
fiecare element detectat este considerat un exemplu pozitiv
Urmărirea activă(Active tracking) – prezintă metoda cat timp valoarea de încredere este mai mare de 50%.
de identificare, detectare și urmărire a unui obiect de Pentru a putea evalua precizia unui algoritm de
interes într-o secvență de imagini. Aplicațiile de urmărire detecție de obiecte, sunt adoptate următoarele metode de
din cadrul sistemelor se găsesc în camerele de verificare: recall, precision, average precision, mean
supraveghere video și dispozitivele de monitorizare a average precision. Aceste criterii sunt construite astfel
traficului. încât să penalizeze localizările greșite, duplicatele și
obiectele neidentificate.
Recunoașterea emoțiilor [3] – reprezintă capacitatea În timpul testarii imaginii cu index-ul i și predicției j,
unui sistem de a recunoaște emoțiile trăite de o persoană algoritmul de detecție de obiecte trebuie sa returneze un
prin analiza expresiei feței sau a vocii. Sistemele de chenar de predicție 𝑏ij împreună cu o etichetă reprezentând
recunoaștere a emoțiilor, în general învață să determine clasa și o valoare de încredere 𝑐𝑖𝑗 . Considerând pragul
legătura dintre o emoție și manifestarea ei externă. pentru valoarea de încredere ca fiind t, 𝑠𝑖𝑗 = 1 dacă
𝑐𝑖𝑗 ≥ 𝑡, altfel 𝑠𝑖𝑗 = 0. Daca predicția detecției j asupra
imaginii i se potrivește cu poziția obiectului în realitate, cu
o valoare de încredere mai mare decât pragul prestabilit t
atunci 𝑧𝑖𝑗 = 1, altfel 𝑧𝑖𝑗 = 0. În acest fel putem crește
precizia estimării poziției eliminând o bună parte din
estimările greșite.
Prezentarea celor mai comune modele pentru 2.1 TensorFlow Lite
evaluarea preciziei algoritmilor de detecție [5]:
Recall – pentru o anumită clasă, acest element reprezintă Este instrumentul software prin intermediul căruia a
proporția corectă a predicțiilor asupra numărului total de fost posibilă rularea modelului de rețea neuronală
obiecte: convoluțională pe platforma embedded Rpi4. Acesta are
∑𝑖=1,…,𝑁1 ∑𝑗=1,…,𝑁𝑖𝑗 𝑍𝑖𝑗 rolul de a realiza inferența cu o latență scazută pe
𝑅𝑒𝑐𝑎𝑙𝑙(𝑡) =
𝑁 dispozitivele cu resurse hardware limitate. Principalele
componente ale instrumentului TF Lite:
,unde 𝑁𝑖 este numărul de imagini, 𝑁𝑖𝑗 este numărul total • Interpretorul - are rolul de a rula modele
de detecții realizate asupra imaginii i, și N este numarul neuronale optimizate, pe o multitudine de
total de obiecte în S clase totale. platforme hardware incluzând platforme mobile,
microcontrollere si embedded.
Precision – este definit ca fracția dintre numărul de • Convertorul – are rolul de a realiza conversia
predicții corecte și numărul de predicții totale. O predicție modelelor TensorFlow clasice într-o formă mult
corect realizată este contorizată o singură dată, în timp ce mai eficientă cu un grad ridicat de optimizare al
toate celelalte predicții duplicat vor fi considerate drept algoritmilor si o dimensiune redusă a fisierelor
detecții false. ridicand astfel nivelul performanței.
∑𝑖=1,…,𝑁𝑖 ∑𝑗=1,…,𝑁𝑗 𝑍𝑖𝑗
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑡) =
∑𝑖=1,…,𝑁𝑖 ∑𝑗=1,…,𝑁𝑗𝑆𝑖𝑗
2.2 Pași parcurși în realizarea
,unde 𝑆𝑖𝑗 = 1 atunci când algoritmul determină faptul că inferenței modelului TensorFlow Lite:
detecția j din imaginea i este un obiect dintr-o clasă
specificată iar 𝑍𝑖𝑗 măsoară valoarea de adevăr a detecției.
Termenul inferență se referă la procesul de execuție a unui
Average Precision – pentru detecția mai multor obiecte, model TensorFlow Lite pe dispozitiv pentru a face
valoarea preciziei scade odată cu creșterea pragului predicții pe baza datelor de intrare.
modelului Recall. Are rolul de a măsura valoarea ecuației
medie a performanței(AP), ce reprezintă precizia medie la 1. Încărcarea modelului
diferite niveluri ale modelului Recall. Acest model este - este încărcat în memorie fișierul cu extensia .tflite ce
definit ca integrala preciziei peste modelul Recall, unde r conține graficul de execuție al modelului
reprezintă modelul Recall. Integrala este cazul ideal pentru
un set de date infinit de larg. 2. Transformarea datelor de intrare
- în general datele de intrare neprelucraet nu se potrivesc
1
𝐴𝑃 = ∫0 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑟)𝑑𝑟, cu formatul de intrare așteptat de model. De exemplu în
cazul nostru a fost necesar realizarea unui proces de resize
al cadrelor capturate pentru a realiza compatibilitatea
Considerând că diferența dintre două niveluri apropiate ale datelor.
modelului Recall este 𝑑𝑟 , AP este aproximat ca fiind AP
în cazul mai multor niveluri Recall diferite: 3. Rularea inferenței
- acest pas impune folosirea API-ului pus la dispozitie de
∑ 0,1 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 TFL. Acesta a fost implicat în realizarea build-ului și
𝑟𝑒𝑐𝑎𝑙𝑙= ,…,1
𝑑𝑟
𝐴𝑃 = alocarea tensorilor
𝑑𝑟 + 1
4. Interpretarea datelor de ieșire
Mean Average Precision – această metodă este folosită - rezultatele apărute în urma procesului de inferență au fost
drept metodă finală de verificare. Considerând 𝑁0 clase de interpretate și mapate la etichetele corespunzătoare astfel
obiecte în imaginile evaluate, valoarea mAP este definită încât acestea să capete sens în descrierea obiectelor vizate.
ca fiind media AP din toate clasele existente:
∑𝑛=1,2,…,𝑁0 𝐴𝑃
𝑚𝐴𝑃 =
𝑁0
Unde mAP poate calcula performanța algoritmului peste
toate nivelurile modului Recall și peste toate clasele.
2.3 Pași parcurși în realizarea 3. DETECȚIA FACIALĂ
detecției în timp real:
1. Alegrea unui model preantrenat. Detecția facială este un element esențial din cadrul
- acest pas a fost realizat prin selectarea modelului viziunii computerizate, ce implică gestionarea fețelor
ssd_mbilenet_v1, acesta fiind antrenat în prealabil pe setul umane în cadrul imaginilor sau secvențelor de imagini.
de date COCO. În acest capitol voi descrie două metode de realizare a
detecției faciale folosind două soluții diferite:
2. Conversia modelului MTCNN(Multi-task Cascade Convolutional Neural
- la acst pas a fost utilizat convertorul TF Lite pentru a Network) și Clasificatorul Cascade cu OpenCV.
putea obține el mai bun raport precizie/viteză de răspuns Localizarea unei fețe într-o fotografie se referă la
în ceea ce priveșt detecția. găsirea coordonatelor feței din cadrul imaginii, în timp ce
- ca și observație putem nota faptul că a fost obținută o încadrarea acestia face referire la crearea unui contur de
valoare medie de 4 fps pentru rularea modelului specificat. are rolul de a selecta zona din jurul feței.
- o performanță mai bună în privința ratei de transmisie se O caracteristică importantă în detecția facială o
poate obține folosind un model mai puțin complex dar în reprezintă diversitatea de factori care trebuie considerați în
acest caz va trebui să renunțăm la precizia detecției. momentul detecției: orientarea, culoarea părului,
machiajul, vârsta, etc.
3. Deployment
- rularea inferenței prin intermediul interpretorului oferit
către TF Lite, împreună cu API-ul OpenCV. 3.1 Detecția facială cu OpenCV
Algoritmii de detectare a feței bazați pe

2.4 Rezultate caracteristici, sunt rapizi și eficienți aceștia fiind utilizați
cu succes de zeci de ani. Una dintre tehnicile ce au
În Fig.2 putem observa output-ul realizat în procesul prezentat rezultate foarte bune este numită Classifier
de detecție. Aici regăsim 3 chenare de delimitare a Cascade [6].
obiectelor, fiecare dintre ele indicând clasa din care acesta O implementare modernă a Clasificatorului Cascade o
aparține împreună cu valoarea de încredere. putem regăsi în biblioteca OpenCV. Aceasta este o
bibliotecă specifica Computer Vision, realizată în C++ ce
oferă o interfață în python. Unul dintre avantajele acestei
tehnologii îl reprezintă posibilitatea de accesare de modele
preantrenate de detecție facială oferind și posibilitatea de
antrenare a propriului set de date.
3.2 Detecția facială folosind DNN
Au fost dezvoltate numeroase metode în cadrul Deep

Neural Network care au adus un aport important în
creșterea preciziei privind algoritmii de detecție facială.
Fig. 2 Ilustrație a procesului de detecție de obiecte Una dintre abordările detecției ce a obținut rezultate
foarte bune este numită Multi-Task Cascaded
În tabelul 1 observăm rezultatele detaliate capturate în Convolutional Neural Network [7].
procesul de detecție. De adăugat faptul că procesul a fost Acest algoritm este foarte cunoscut atât pentru
realizat cu un treshold al valorii de încredere setat la rezultatele bune obținute în cadrul benchmark-urilor
valoarea 0.5, mai precis, sistemul va considera drept realizate împreună cu alți algoritmi cât și pentru
detecții corecte doar detecțiile ale căror valoari de capacitatea acestuia de a identifica caracteristici noi
încredere depășesc pragul setat. precum ochi, gură, etc [6].
Arhitectura folosește o structură cascadată cu trei rețele
Clasă Scor Locație neuronale. Mai întâi, imaginea este redimensionată la o
Cup 0.63 [61, 39, 117, 164] serie de diferite dimensiuni denumită și piramidă de
Cup 0.53 [132, 86, 222,179] imagini. Mai apoi, primul model Proposal Network sau P-
Apple 0.62 [235, 116, 295, 177] Net propune regiunile faciale descoperite.
Table 1 Valori output generate în urma detecției
Al doilea model, Refine Network sau R-Net filtrează 3.3 Rezultate
chenarele de încadrare pentru fețe, iar cel de-al treilea
model Output Network sau O-Net realizează o propunere
1) OpenCv
a reperelor faciale [8].
În Fig. 3 putem observa pașii realizați de către
algoritmul MTCNN pentru obținerea corectă a detecției
faciale împreună cu o parte din caracteristicile feței.
Modelul are denumirea de Multi-task deoarece fiecare
dintre cele trei modele din cascada(P-Net, R-Net, O-Net)
Fig. 4 Detecția fețelor realizată cu OpenCV
În Fig. 4 putem observa rezultatul aplicării detecției

asupra unei imagini cu mai multe persoane. Putem observa
faptul că o bună parte din fețe au fost detectate corect de
către algoritm dar rezultatul nu este chiar perfect.
Observăm că persoanele care prezintă o înclinare a feței nu
au putut fi detectate corect, în schimb putem nota faptul că
nu există detecții eronate prezente în imagine.
2) MTCNN
Fig.3 Pași în realizarea MTCNN
sunt instruite în 3 sarcini principale: clasificarea feței,

regresia chenarului de delimitare și localizarea poziției în
cadrul imaginii.
Cele 3 modele nu sunt conectate direct, în schimb
rezultatul fiecăreia dintre ele va fi considerat drept input
pentru etapa următoare. Această metodă permite
procesarea suplimentară între etape, de exemplu Non-
Maximum Suppression(NMS) care este utilizat pentru
filtrarea chenarelor propuse la primul pas(P-Net) înainte
de a le furniza în cea de-a doua etapă(R-Net).
Implementarea arhitecturii MTCNN, poate fi destul de
complexă, de aceea este recomandată utilizarea unui
model deja existent, ce poate fi antrenat pe propriul set de Fig. 5 Detecția fețelor realizată cu MTCNN
date sau utilizarea unui model preantrenat
În Fig. 5 putem observa faptul că toate persoanele din
imagine au fost identificate cu succes cu ajutorul
algoritmului MTCNN. Pe lângă încadrarea corectă a
tuturor figurilor identificate putem nota faptul că și
caracteristicile specifice acestora au fost identificate cu
succes.
În urma detecțiilor realizate putem nota diferența de
precizie existentă între cele două metode constatând o
îmbunătățire considerabilă a randamentului odată cu
utilizarea rețelelor convoluționale adânci.
4. RECUNOAȘTEREA VORBIRII 5. COMPONENTE UTILIZATE
Algoritmii de tip Deep Learning sunt foarte Raspberry Pi 4 este cea mai nouă versiune din cadrul
cunoscuți pentru aplicabilitatea lor în recunoașterea seriei de mini-computere Raspberry Pi. Scopul acestuia este
imaginilor dar o altă utilizare cheie a tehnologiei o acela de a oferi un dispozitiv cu costuri reduse capabil de
reprezintă recunoașterea vorbirii. operații similare cu cele ale unui computer standard.
La nivelul cel mai de bază, recunoașterea vorbirii
transformă undele sonore în litere individuale ulterior
formând propoziții cu ajutorul acestora. Principala barieră
în transcrierea corectă a cuvintelor este variabilitatea
sunetului creat pentru aceleași cuvinte date mai precis,
accentul sau cadența. Dată fiind o propoziție în format
audio, recunoașterea vorbirii pornește de la transformarea
undelor sonore folosind transformata rapidă Fourier și
concatenând cadrele ferestrelor adiacente pentru a forma o
spectogramă. Scopul principal este acela de a reduce
dimensionalitatea datelor sonore univariate, într-un mod
care să permită predicția literelor componente [9].
Fig. 7 Prezentare componente hardware RPi4
Specificații tehnice Raspberry Pi 4:

- procesor: Broadcom BCM2711, cu arhitectură Cortex-A72 pe
64biți și un număr de 4 nuclee;
- memorie RAM: 1/2/4GB LPDDR4 SDRAM;
- conectivitate: WiFI 2,4-5GHz, Bluetooth 5.0BLE, Ethernet,
USB 2.0/3.0;
- 40 de porturi de uz general GPIO;
- 2 conectori micro HDMI cu suport de rezoluție 4K;
Fig. 6 Spectograma semnalului audio - conector MIPI Display Serial Interface;
- conector MIPI Camera Serial Interface;
Modelarea dintre anumite cadre ale spectogramei și - port audio stereo și video;
anumite litere prezise este cel mai bine realizată folosind - slot de card microSD pentru rularea sistemului de operare și
rețele neuronale recurente. În trecut, mai multe modele pentru stocarea datelor;
axate pe acustică, pronunție și limbă au fost implementate - alimentare prin port USB Type C: 5V, 3A;
- temperatură de operare 0 – 50 ̊C;
dar cele mai bune rezultate au fost obținute în cadrul
rețelelor neuronale recurente. Acestea permit transcripții
mai precise, permițând o mai mare flexibilitate în
prezicerea cuvintelor cu sunete variate. Tot în acest scop
putem considera și Long Short Term Memory
Networks(LSTMs) care au avut rezultate satisfăcătoare.
Fiecare cadru al spectogramei este modelat ca un
caracter al alfabetului(A-Z, spațiu), unde fiecare caracter
conține un număr de valori de activare. Valorile de
activare, ulterior vor indica probabilitatea de apariție a
fiecărei litere în cadrul secvenței audio.
Ulterior, algoritmul de clasificare mapează secvența de
caractere la un cuvânt eliminând duplicatele sau spațiile Fig. 8 Prezentare Camera foto/video Omni Vision OV5647 [10]
goale prezente.
Specificații tehnice cameră foto/video compatibilă Rpi4:
De specificat faptul că acest capitol se dorește a fi - Senzor color CMOS 5 megapixeli;
integrat în lucrare ca o perspectivă de dezvoltare ulterioară - Dimensiune pixel: 1.4 x 1.4 um;
din cadrul proiectului de Disertație. - Lentilă: f = 3.6 mm, f/2.9;
- Video: 1080p la 30 fps cu codec H.264 (AVC)
- Compatibilitate: Raspberry Pi 4/ 3/ 2;
CONCLUZII ȘI PERSPECTIVE
DE DEZVOLTARE
În concluzie, această lucrare și-a propus prezentarea

atât a noțiunilor teoretice cât și practice în ceea ce privește
utilizarea de rețele neuronale convoluționale adânci
subliniind funcționalitatea algoritmilor pentru detecția în
timp real a obiectelor, clasificarea de imagini, detecția
facială și recunoasterea vorbirii.
A fost prezentată o comparație a unui algoritm clasic de
detecție facială și unul bazat pe deep learning. Am notat
faptul că, deși cele două reușesc să atingă scopul propus,
doar în cadrul rețelelor neuronale obținem un rezultat
satisfăcător, cu o rată de succes vizibil mai mare asupra
imaginii date.
În ceea ce privește recunoașterea vorbirii, am notat
câteva aspecte teoretice importante din cadrul acestui
domeniu, având ca scop dezvoltarea sa practică ulterioară
în cadrul platformelor de dezvoltare mobile.
BIBLIOGRAFIE
[1] R. Asthana, „How is AI enabling "Object identification
and recognition"?,” 2019.
[2] R. Alake, „How Does AI Detect Objects?,” 2020.
[3] I. Kuksov, „Sense and sensibility: Do we want Ai to
master emotions?,” 2019.
[4] F. Ai, „Object Detection Guide”.
[5] H. Mao și e. Song Yao, „Towards Real-Time Object
Detection on Embedded Systems”.
[6] J. Browniee, „How to Perform Face Detection with
Deep Learning,” 2019.
[7] C. Szegedy, A. Toshev și D. Erhan, „Deep Neural
Networks for Object Detection”.
[8] X. Zhao, „Real-Time Multi-Scale Face Detector on
Embedded Devices,” 2019.
[9] O. D. Science, „Deep Learning for Speech
Recognition,” 2019.
[10] Cleste, „Camera Viedeo Raspberry Pi”.
View publication stats

DetRecunObj CNN

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

DetRecunObj CNN

Încărcat de

Drepturi de autor:

Formate disponibile

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Detecția și recunoașterea de obiecte & voce prin intermediul rețelelor

Article · November 2020

The user has requested enhancement of the downloaded file.

Identificarea și recunoașterea obiectelor este o zonă

Recunoașterea de obiecte(Object recognition) – 𝐴 ∩ 𝐵

Algoritmii de detectare a feței bazați pe

3.2 Detecția facială folosind DNN

Au fost dezvoltate numeroase metode în cadrul Deep

Fig. 4 Detecția fețelor realizată cu OpenCV

În Fig. 4 putem observa rezultatul aplicării detecției

sunt instruite în 3 sarcini principale: clasificarea feței,

Specificații tehnice Raspberry Pi 4:

În concluzie, această lucrare și-a propus prezentarea

View publication stats

S-ar putea să vă placă și