Documente Academic
Documente Profesional
Documente Cultură
Etapa1 L1.1
Etapa1 L1.1
Colectiv de elaborare
Verificat
Bogdan Ionescu UPB
Marian Ghenescu UTI
Florin Răstoceanu ACTTM
Avizat
Bogdan Ionescu UPB
Cuprins
1 Introducere .......................................................................................................................................... 5
1.1 Obiectivele activitatii.................................................................................................................. 5
1.2 Abrevieri ..................................................................................................................................... 5
1.3 Documente de referinta ............................................................................................................. 7
2 Studiul surselor de date ....................................................................................................................... 7
2.1 Surse de date Video.................................................................................................................... 7
2.2 Surse de date Audio.................................................................................................................. 14
2.3 Alte surse de date Audio-Video................................................................................................ 19
2.3.1 Baze de date......................................................................................................................... 19
2.3.2 Telefoane smart ................................................................................................................... 21
2.3.3 Social media ......................................................................................................................... 22
2.3.4 TV si alte surse...................................................................................................................... 23
2.4 Baze de date indexate .............................................................................................................. 24
2.4.1 Surse in spectrul vizibil......................................................................................................... 24
2.4.2 Surse de tip termal ............................................................................................................... 26
2.4.3 Surse de tip gated ................................................................................................................ 28
2.4.4 Provocari si probleme generate de aceste seturi de date ................................................... 29
2.5 Surse de date de tip metadata ................................................................................................. 29
2.5.1 Algoritmi procesare Video 3rd party ..................................................................................... 30
2.5.2 Algoritmi procesare Audio 3rd party..................................................................................... 35
3 Identificarea surselor de interes (existente)...................................................................................... 37
4 Obiective specifice – vs – scenarii operationale & indicatori de performanta.................................. 41
4.1 Descriere generala.................................................................................................................... 41
4.2 Obiectiv specific 1: validarea identitatii persoanelor............................................................... 42
4.2.1 Scenariul 1 analiza comportament multimi ......................................................................... 42
4.2.2 Scenariul 2 identificare persoane in multime....................................................................... 45
4.2.3 Scenariul 3 tracking persoana pe mai multe surse video..................................................... 47
4.2.4 Scenariul 4 identificare comportament si actiuni persoane de interes................................ 49
4.2.5 Scenariul 5 gasire obiecte de interes si extragere caracteristici .......................................... 51
4.3 Obiectiv specific 2: interpretarea comportamentului simulat ................................................. 53
4.3.1 Scenariul 6 detectie microgesturi persoane in zona de tip “sala de asteptare” .................. 53
4.3.2 Scenariul 7 determinare emotii persoane in zona de tip “sala de asteptare” ..................... 55
4.3.3 Scenariul 8 determinare emotii persoane si inflexiuni ale vorbirii (intensitate / variație /
vibrație) in zona de tip “sala de interviu”........................................................................................... 57
4.3.4 Scenariul 9 determinare emotii persoane in zona de tip “punct de control acces” ............. 59
4.4 Obiectiv specific 3: interpretarea automată a vorbirii ............................................................. 61
4.4.1 Scenariul 10 speech-to-text.................................................................................................. 61
4.4.2 Scenariul 11 verificare vorbitor ............................................................................................ 63
4.4.3 Scenariul 12 identificare vorbitor ......................................................................................... 65
4.4.4 Scenariul 13 citire pe buze.................................................................................................... 67
5 Rezumat activitate si Concluzii........................................................................................................... 69
1 Introducere
In esenta, prin aceasta activitate consortiul isi propune sa aiba o imagine de ansamblu asupra
surselor de date disponibile (tehnic) la acest moment, asupra surselor disponibile (la Beneficiar si
potentiali beneficiari) pentru testare si, nu in ultimul rand, asupra cerintelor si nevoilor generale pe care
Beneficiarul le are in activitatile curente. Toate aceste informatii vor fi corelate cu datele celorlalte
activitati ale etapei si vor constitui datele de intrare pentru definirea solutiei, determinand balansarea
optima intre cerinte-posibilitati tehnice-resurse.
1.2 Abrevieri
Pixel PIcture ELement, reprezinta un singur punct intr-o imagine grafica. Monitoarele
grafice afiseaza imaginile impartind ecranul in mii (sau milioane) de pixeli, aranjate
in randuri si coloane.
VGA Rezolutie standard de 640 x 480 linii de pixeli, fiecare pixel fiind reprezentat de 16
sau 256 de culori maxim.
CIF Common Intermediate Format – Reprezinta o rezolutie standard de 352 × 288 pixeli
(combiantii: 2CIF, 4CIF).
FPS Frames Per Second – Reprezinta numarul de cadre (imagini) pe secunta achizitionate
sau oferite spre vizualiare (valori practice achizitie video ~ 3 ->25 FPS; valori
practice afisare ~15 -> 25/30 FPS ).
AVI Audio Video Interleave – cel mai popular container video (mod de a stoca
informatia video pe mediile de stocare).
ROI Region of Interest (Regiune de Interes) – reprezinta o zona (portiune) din imagine
(frame video) care urmeaza a fi analizata (de regula incadrata printr-un dreptunghi).
Codec Video COding DECoding Video – metoda de a comprima si decomprima datele video cu
scopul de a stoca si transmite informatiile video eficient.
Frame (cadru Cadru video. Unitate constituenta a unui flux video (o imagine din fluxul total de
video) imagini ce compun fisierul video).
720p Rezolutie standard echivalenta a 720 linii TV orizontale respectiv 1280x780 pixeli;
se mai intalneste in domeniu si sub titulatura de HD Ready
ONVIF Open Network Video Interface Forum – organizatie si standard de comunicatie intre
senzori si sisteme de securitate cu comunicatie IP
DVR Digital Video Recorder – Sistem de inregistrare date video de provenite de la camere
video de tip analogic
HVR Hybird Video Recorder - Sistem de inregistrare date video de provenite de la camere
video de tip analogic si IP
SDK Software development kit – set de instructiuni sau functii software care permit
integrarea si dezvoltarea unor solutii sau module software noi
IR Infra-Rosu
Preluarea imaginilor din surse analog presupune utilizarea unei placi de captura care transfora
semnalul din semnal analog in date. Astfel de sisteme se numesc, in terminologia CCTV, sisteme Digital
Viedo Recorder (DVR). Integrarea intr-o arhitectura complexa presupune integrarea, pe baza unui SDK
sau API, a sistemelor DVR, avand astfel acces la imaginile furnizate de camerele video analog.
Din punct de vedere al standardizarii nu putem vorbi de un standard clar pentru sistemele DVR,
in general fiecare producator folosind protocoale proprietare prin care expune datele de la sistemele
DVR in reteaua LAN sau Internet. In general aceste integrari se fac punctual, in functie de proiect. Un
aspect pozitiv este acela ca, de obicei, un producator de sisteme DVR foloseste acelasi protocol pentru
sistemele sale, chiar daca are o familie diversa de astfel de sisteme.
Un alt mod de preluare a imaginilor din surse analog, derivat din dezvoltarea solutiilor in
tehnologie IP, presupune utiliarea unui “encoder” de semnal, echipament care asigura conversia
semnalului analog in date, precum si expunerea prin protocoale de retea.
Un parametru foarte important in domeniul CCTV este resolutia video. Sistemele bazate pe
surse analog au rezolutii video maxime de 4CIF (= 704 x 675* pixeli), cu valorile inferioare 2CIF (=704 x
288 pixeli) respectiv CIF (= 356 x 288 pixeli). Unele sisteme exprima acest parametru sub forma TVL†
(linii TV), exprimare corecta pentru surse videode tip analog, insa pentru o usoara comparatie cu
*
Rezolutii echivalente pentru formatul PAL. Pentru NTSC acestea sunt 704 x 480
†
Conform standard NTSC, o imagine ste compusa din 480 linii orizontale active.
Pentru o reprezentare vizuala am facut unele simulari utilizand modulul software IP Video System
Design Tool, Vivotek, 2016. Aceste simulari vor fi folosite ca informatii de referinta la definirea
scenariilor operationale, deoarece treseaza, in linii mari, informatiile furnizate de sursele video, mai ales
nivelul de detaliu pe tinta.
‡
Procent din dimensiunea pe verticala
Fata de sursele analog, in cazul surselor in tehnologie IP imaginile sunt expuse direct in format
de date, digitizarea facandu-se integrat, la nivelul camerei. Aceasta are integrat un procesor care asigura
atat codarea datelor cat si expunerea lor in retea. Datorita faptului ca aceasta topologie a condus la un
numar mare de camere ce expun date, fata de sistemele DVR, la sistemele IP standardizarea a evoluat
mult mai rapid iar la acest moment marea majoritate a camerelor si producatorilor au aliniat acest mod
de expunere a datelor la standardul ONVIF. Acest aspect nu garanteaza in totalitate compatibilitatea
camerei cu aplicatiile ce sunt “ONVIF compliant” deoarece standardul permite diferite implementari,
insa functiile de baza sunt asigurate si, mai mult, efortul de compatibilizare este mult mai redus
comparativ cu o integrare completa. Ca protocoale de retea suportate in general trebuie amintite
IPv4, IPv6, TCP, UDP, ARP, ICMP, IGMP, HTTP, HTTPS, FTP (client only), SMTP, DHCP, DNS,NTP,
RTP/RTCP, RTSP, SNMP (MIB-2).
Un aspect deosebit de important la sursele video IP, comparativ cu cele analog, este cel legat de
rezolutie. Pentru sursele IP rezolutiile uzuale sunt mult superioare celor analog, ca rezolutie general
acceptata la acest moment fiind de amintit full HD§ (echivalentul 1920 x 1080 pixeli). Exista chiar surse
cu rezolutii mult mai mari, de tipul 4k (3640x2160 pixeli) sau chiar superioare. In aceste cazuri
provocarea se muta de la existenta – vs – lipsa informatiilor in imagine la posibilitatea de procesare sau
care/cati algoritmi pot fi rulati concurent datorita nevoilor de procesare net superioare.
In tabelul urmator am incercat sa sumarizam informatiile continute intr-o imagine, prin prisma
rezolutiei, pentru camerele video analog respectiv IP uzuale:
- Surse in spectrul vizibil – surse sensibile in spectrul ce poate fi detectat si cu ochiul uman, in
intervaluyl 350 – 750 nm; de obicei aceste surse sunt sensibile si in zona infrarosu, uzual pana la
900 nm dar mergand pana la 1100 nm – facilitate ce permite utilizarea acestora si pe timp de
nopate, cu iluminare folosind iluminatoare in infrarosu
Imagini standard CCTV, camera in vizibil – imagine de zi, respectiv de noapte (cu iluminare IR)
- Surse in spectrul termal – Termoviziunea sau vizualizarea in infrarosu (IR) este o tehnica prin
care o camera (sau scaner) detecteaza si afiseaza o harta a intensitatii radiatiei pe un domeniu
din spectrul electromagnetic. Termenul TERMOVIZIUNE defineste imaginea obtinuta de camera
termica si se utilizeaza in special in aplicatiile militare sau de supraveghere civila, in timp ce
TERMOGRAFIA implica si masurarea de temperatura, in aplicatii industriale sau stiintifice. O
camera termala in infrarosu converteste radiatia infrarosie, invizibila pentru ochi, in imagine
vizibila. Aceasta conversie este realizata de catre senzorul IR./** Pentru termoviziune
(termografie) prezinta interes domeniul cuprins intre 0,8µm si 15µm. Practic, functie de
producator, sunt recunoscute 3 subdomenii:
- Unde scurte (SW - ShortWaves) sau Apropiat infrarosu (NIR – NearInfrared) 0,8 ÷
1,5µm
- Unde medii (MW - MidWaves) 2 ÷ 5µm
- Unde lungi (LW – LongWaves) 7 ÷ 15µm
Imagini standard CCTV, camera in vizibil (iluminare IR) imagine de noapte, respectiv camera termala
**
http://www.termoviziune.ro/ro/Tehnologia-IR/
Utilizarea camerelor termale prezinta cateva avantaje majore fata de solutia clasica CCTV (cu iluminator
IR):
o acopera o suprafata mult mai mare, fiind necesar un numar mai mic de camere
o pot vedea prin fum, ceata usoara, ploaie si ninsoare
o nu necesita o sursa de iluminare suplimentara si astfel nu poate fi determinata zona de scanare
acoperita
o pot fi usor identificate “obiectele” de interes pe baza amprentei de temperatura, mai ales
pentru aplicatii ca detectie de persoana, detectie de masina, etc.
o un dezavantaj ar fi rezolutia acestor surse, inca mica raportata la camere uzuale IP, de ordinul
4CIF ÷ 720p
- Surse de tip gated – intalnite si sub denumirea de time-of-flight camera (ToF camera), se
bazeaza pe distanta parcursa de o raza laser emisa si apoi reflectata de tinta si captata pentru a
trasa o imagine doar a zonei de interes sau, mai complex, pentru a asocia informatii de distanta
obiectelor din cadru. Rezolutiile sunt in general mici, de ordinul CIF, insa principalul avantaj este
dat de informatiile de distanta cu care vine aceasta tehnologie.
††
Credit imagine - https://www.spiedigitallibrary.org/journals/Optical-Engineering/volume-53/issue-
5/053106/Laser-gated-viewing-advanced-range-imaging-methods-using-compressed-
sensing/10.1117/1.OE.53.5.053106.short?SSO=1
Microfoane
Microfonul este un traductor electroacustic destinat sa transforme energia sonora în energie electrica.
În mod obisnuit microfonul se gaseste situat într-un câmp sonor caracterizat de presiunea P si debiteaza
la borne o tensiune electrica U. Indiferent de particularitatile constructive, de modul de tranformare a
energiei, microfoanele se pot caracteriza dupa functionarea acusto-mecanica. Se disting astfel:
a) Microfonul sensibil la presiune, pe scurt microfonul de presiune este constituit principial dintr-o
diafragma (echipajul mobil) accesibila pe de o parte câmpului acustic, fiind capsulata de cealalta parte
(figura urmatoare). Asupra diafragmei actioneaza o forta care este proportionala cu presiunea aplicata.
Microfonul se mai numeste omnidirectional.
Microfonul omnidirectional.‡‡
b) Microfonul sensibil la viteza (cu gradient de presiune), pe scurt microfon de viteza, este constituit
principial dintr-o diafragma accesibila de ambele parti câmpului acustic. Asupra diafragmei se aplica
presiunea directa p1 si presiunea rezultata din ocolire p2 (figura 2). În cazul microfonului de viteza forta
este proportionala cu presiunea si cu un factor, cosq, care arata, pe de o parte, ca forta aplicata creste
cu frecventa iar, pe de alta parte, ca microfonul de viteza are caracteristica de directivitate R(q) = cosq,
numita caracteristica în opt. Microfonul se mai numeste bidirectional.
‡‡
http://www.etc.tuiasi.ro/esa/lab7.pdf
Microfonul bidirectional.
c) Microfonul cu actiune mixta, este o combinatie a celor mentionate anterior, si duce la obtinerea unor
caracteristici unidirectionale prin realizarea adecvata a marimilor acustice din circuit. Ideea de baza
pentru constituirea microfoanelor unidirectionale se bazeaza pe faptul ca daca se sumeaza doua
caracteristici de directivitate, una omnidirectionala iar cealalta bidirectionala, se obtine o caracteristica
de directivitate unidirectionala. Curba obtinuta se numeste cardioida deoarece are forma asemanatoare
cu forma inimii. Caracteristica obtinuta nu este singura posibila. Se pot obtine si altele printr-o dozare
convenabila a ponderilor celor doua polare de baza. Daca la microfoane randamentul nu este o marime
care sa intereseze, ele trebuie în schimb sa nu modifice proprietatile productiei sonore si pentru aceasta
trebuie sa îndeplineasca conditiile:
1) introducerea sa în câmpul sonor trebuie sa produca o modificare cât mai mica a structurii acestuia;
2) factorul de transfer al microfonului, definit ca raportul dintre tensiunea obtinuta la borne si presiunea
sonora, sa fie constant într-o gama cât mai mare de frecvente;
3) sensibilitatea trebuie sa aiba o valoare cât mai ridicata;
Clasificarea microfoanelor:
electrodinamice, la care o bobină sau o bandă metalică se deplasează sub acţiunea presiunii
sonore într-un câmp magnetic constant
electromagnetice la care oscilaţiile electrice apar într-o bobină fixă datorită deplasării unei
armături într-un câmp magnetic
piezoelectrice la care apar sarcini electrice când se exercită o presiune asupra cristalului
piezoelectric
electrostatice la care curentul apare în circuitul unui condensator când distanţa între plăcile lui
se modifică.
2. Din punctul de vedere al alimentării:
pasive la care energia acustică reglează cantitatea de energie electrică dintr-un circuit alimentat
independent (este cazul microfoanelor electrostatice)
active la care energia acustică se transformă direct energie electrică (aşa cum se întâmplă la
microfonul electrodinamic sau piezoelectric).
3. Din punct de vedere al caracteristicii de directivitate:
microfoane unidirecţionale care sunt sensibile la sunete ce vin dintr-o singură direcţie.
microfoane bidirecţionale care sunt sensibile la sunete ce vin din două direcţii opuse.
4. Din punct de vedere al mărimii care acţionează pentru punerea în funcţiune a sistemului oscilant al
microfonului:
Produsele MEMS (Micro Electro Mechanical Systems) folosesc procesele de fabricaţie robuste din
industria semiconductoarelor pentru a crea o gamă largă de dispozitive electronice mai mici, mai fiabile
şi mai ieftine. Pe scurt, MEMS reprezintă fabricaţia de structuri electromecanice cu ajutorul tehnologiei
semiconductoarelor. în mod tradiţional, în dispozitivele semiconductoare se creează structuri
electrice/electronice care conduc la realizarea circuitelor integrate. în contrast cu aceasta, MEMS
transformă siliciul în elemente mecanice în mişcare. în ultimul deceniu acest proces a devenit extrem de
util pentru multiple ramuri industriale.
§§
http://www.electronica-azi.ro/print.php?id=1583
Marea diferenţă dintre un microfon ECM şi unul fabricat în siliciu este legată de modul cum sarcina este
menţinută pe armătura fixă. La ECM sarcina pe această armătură este introdusă (la tensiuni de 200 -
300V) în procesul de fabricaţie. Dacă din anumite motive sarcina se reduce sau se elimină, răspunsul
dinamic al microfonului se degradează în mod rapid. în general acest lucru este cauzat de prezenţa în
zonă a unei călduri excesive.
Acesta este motivul pentru care microfoanele ECM nu trebuie să lucreze la peste 85°C şi nu pot fi lipite
pe placa de circuit imprimat prin procesele automate clasice de lipire a SMD-urilor. Un microfon realizat
din siliciu nu are o sarcină iniţială la ieşirea din fabrică. Printr-o tensiune de 12V o sarcină electrică este
“pompată” pe armătura fixă printr-un circuit CMOS. Chip-ul menţine această sarcină atâta timp cât
microfonul este activat.
Microfoanele cu electret tradiţionale folosite în aplicaţii wireless portabile prezintă o sensibilitate mare
datorită diafragmelor de mari dimensiuni (tipic 6 mm). Cu cât microfoanele ECM sunt de dimensiuni mai
reduse, cu atât ele pierd mai mult din sensibilitate. Microfoanele SMD de la Knowles Acoustics menţin
înalta sensibilitate (-42 dBV) cu toate că diafragma este de doar 0,5mm în diametru (funcţionarea se
bazează pe o invenţie cu privire la realizarea unei diafragme cu flotaţie liberă). Dimensiunea redusă a
diafragmei conduce la o miniaturizare şi o ieftinire a produsului deoarece mii de microfoane pot fi
realizate dintr-un singur wafer de siliciu.
Telefoanele celulare, PDA-urile, Palm-urile, laptop-urile, WAP-urile (WAP - web enabled phone) sau alte
dispozitive audio reprezintă piaţa ţintă a microfoanelor MEMS prezentate în acest articol. Acestea sunt
aplicaţii de mare volum care beneficiază din plin de avantajul acestui tip de microfoane SMD. Se evită
astfel costurile adiţionale şi deloc de neglijat ale producătorilor de astfel de echipamente, costuri
asociate prezenţei de componente suplimentare, procese off-line sau activităţi manuale. În interiorul
acestor dispozitive spaţiul reprezintă o problemă esenţială. Fabricanţii continuă să crească
funcţionalitatea scăzând în acelaşi timp dimensiunile. Un bun exemplu este un PDA. Interiorul său este
uzual configurat, din punct de vedere geometric, la maximum şi în cazul în care fabricantul doreşte să
adauge microfoane, unul de tip ECM va fi semnificativ mai dificil de încorporat decât unul MEMS.
Domeniul de temperatură, rezistenţa la şoc şi sensibilitatea la vibraţii afectează performanţele celor mai
multe aparate electronice portabile. Când cineva lasă telefonul celular în maşină în timpul unei zile de
vară iar ferestrele sunt închise, temperatura din habitaclu poate depăşi uşor 85°C, peste valoarea
acceptată de microfoanele ECM, fapt ce poate conduce la potenţiale defectări ale acestui tip de
microfon şi, în mod sigur, la scăderea fiabiliăţii. Nu trebuie omis nici neplăcutul eveniment de a scăpa jos
un aparat electronic portabil. Majoritatea aparatelor portabile suferă de astfel de şocuri din când în
când. în final, dar nu în cele din urmă, solicitarea continuă la vibraţii a aparaturii portabile poate afecta
fiabilitatea microfoanelor ECM dar nu o afectează pe cea a microfoanelor MEMS pe siliciu.
In anumite situatii, pentru captarea semnalelor acustice, se poate utiliza principiul Vibrometriei Doppler
Laser (Laser Doppler Vibrometry / LDV). Sistemul LDV genereaza un fascicul laser pe o suprafata, care
este modulat cu vibratiile acustice, iar la captare prin demodularea se obtine semnalul acustic.
GSM foloseşte o metodă de acces multiplu TDMA/FDMA. Semnalul vocal este codat numeric şi apoi
secretizat. Viteza binară la ieşirea codorului vocal este mai mică decât viteza de 64kbs, proprie
sistemelor PCM din telefonia terestră. Pentru a mări rezistenţa la fading a comunicaţiei, datele sunt
codate, folosind o metodă care permite corecţia erorilor la recepţie (FEC) şi întreţesute. Metoda de
modulaţie folosită acceptă un raport semnal/interferenţă mic. Mai mult, pentru controlul interferenţei
radio în reţea, GSM înglobează tehnici cum ar fi: saltul de frecvenţă, transmisia numai pe durata vorbirii
şi controlul puterii. " Principalele caracteristicie tehnice ale interfeţei radio sunt: - fiecare purtătoare
deserveşte 8 canale TDMA. - viteza datelor la ieşirea codorului vocal este 13kb/s. Codorul de viteză
redusă (la jumătate) lucrează cu 6,5kb/s. - Păstrarea anonimatului şi protecţia împotriva interceptării
prin autorizare şi secretizare. - Întârzierea pe tot lanţul de comunicaţie, emisie-recepţie, este sub 80ms.
- Utilizarea saltului de frecvenţă pentru a beneficia de diversitate în frecvenţă (când staţia mobilă se
deplasează cu viteză mică) şi pentru a reduce interferenţa. - Utilizarea modulaţiei GMSK (cu anvelopa
constantă), caracterizată printr-o rezistenţă sporită la interferenţă. - O metodă de comunicaţie care
înglobează detecţia activităţii vocale (VAD - Vocal Activity Detection) pentru a întrerupe emisia (DTx) şi a
reduce nivelul de interferenţă radio.
În codarea pe sub-benzi, semnalul audio este supus unei analize cu un banc de filtre constând din M
filtre trece bandă care sunt continue în frecvenţe, astfel încât semnalele rezultate pot fi recombinate
aditiv pentru a produce semnalul original. Fiecare ieşire a filtrului este decimată la limită (se mai spune
critic decimată) (adică eşantionată la dublul benzii nominale) cu un factor egal cu M, numărul de filtre
trece bandă. Această decimare rezultă intr-un număr de eşantioane subbandă ce egalează acelea din
semnalul original. În receptor, rata de eşantionare a fiecărei subbenzi este crescută la cea a sursei de
semnal prin completarea cu eşantioane zero. Procesul de eşantionare poate introduce distorsiuni de
alias din cauza suprapunerii subbenzilor. Există bancuri de filtre ce permit o reconstrucţie perfectă,
termenii de aliasing fiind eliminaţi şi suma ieşirilor filtrelor trece bandă fiind egală cu semnalul de
intrare, în absenţa cuantizării.
Odată cu creșterea digitalizării a cat mai multa informație, atât publica cat si privata, s-au generat o
multitudine de tipuri de baze de date care pot aduce informație relevata acestui proiect. Printre acestea
amintim:
- Baze de date publice video si foto. In acestea se poate căuta existenta unor situații de interes
care pot fi folosite in scopuri de antrenare dar si de validare sau de demo.
- Baze de date corporate, cum ar fi bazele de date de imagini folosite pentru ecusoane. Acestea
ar permite înrolarea a mii de subiecți cu ușurința.
- Baze de date a celor din planul național de apărare. Acestea permit înrolare a mii de persoane
de interes, multe dintre acestea fiind persoane periculoase.
Telefoanele mobile sunt o sursa importanta de date, putând sa genereze atât imagini, video dar si
metadate. Pe lângă faptul ca acestea pot genera o multitudine de tipuri de informații de interes,
telefoanele mai au avantajul major de a fi extraordinar de numeroase, in anul 2016 aproximativ 84% din
romani folosind telefoane mobile de tip „smart”.
Singurul lucru care lipsește momentan este crearea unei platforme care sa permită cetățenilor sa
încarce video relevant, la care sa se permită atașarea si a unei descrieri elocvente pentru ce este arătat
in video. O astfel de platforma ar permite obținerea unui nivel de detalii si imposibil de obținut de la
camerele se supraveghere clasice, in general acestea fiind limitate de unghiul limitat de achiziție si de
calitatea scăzută, in comparație cu un telefon.
Video obținut într-o situație de urgenta direct de la utilizator are marele avantaj de a fi deja indexat ca
fiind de interes, ne mai fiind necesara căutarea camerei de supraveghere care conține unghiul de
captura cat mai adecvat.
Un alt beneficiu al folosirii feedului video de la telefoane este posibilitatea creieri unei harți a zonei de
interes in eventualitatea in care numărul de video disponibile este suficient de mare. Acest lucru ar
permite echipelor de intervenție sa facă evaluarea situației in timp real, chiar pana in momentul
ajungerii acestora la fata locului.
Pe lângă metadatele generate de utilizator orice telefon mobil generează automat un număr
semnificativ de metadate care pot aduce informații critice unei situații de urgenta. Printre aceste
metadate amintim faptul ca telefoanele mobile atribuie oricărui clip sau imagini informații GPS daca
acestea sunt disponibile si informații despre câți oameni sunt in cadru, deoarece majoritatea dispun de
tehnologii de detecție a fetelor si a persoanelor din cadru.
[http://www.startupcafe.ro/stiri-ecommerce-21350798-Statistici-telefoane-mobile-Romania-2016.htm]
In ultimii ani social media a ajuns una din cele mai puternice unelte de investigație disponibile forțelor
de ordine. Cu ajutorul acestora s-a reușit identificarea unor persoane de interes cat si a unor locații de
interes. Acestea fiind spuse, fiecare rețea de socializare are diferite puncte forte de interes pentru
forțelor de ordine. In continuare se vor expune punctele forte si tipul de informații care se pot obține
din cele mai populare rețele de socializare.
Prima rețea de socializare care va fi tratata aici este Twitter. Aceasta rețea de socializare este o
platforma ideala pentru generarea de metadate si de imagini relevante pentru orice situație de interes
in timp real. Pentru a înțelege mai bine cum funcționează aceasta rețea de socializare trebuie inițial sa
explicam câțiva termeni specifici acesteia. Primul termen, si cel mai important in contextul identificării
situațiilor de interes pentru acest proiect este „trending”. Acest termen, deși nu este exclusiv pentru
Twitter, are un impact foarte mare pe aceasta platforma datorita naturii extraordinar de dinamice a
acesteia. Termenul este folosit pentru a descrie subiectele cele mai de interes, mai exacte a celor mai
discutate si menționate subiecte, pentru o anumita regiune sau pe nivel global. Acest termen este
adesea folosit alături de un alt termen de important „hashtag”. Un hashtag este reducerea la un singur
cuvânt a unei situații sau a unui concept pentru a permite celorlalți utilizatori sa creeze un narativ
comun cu ușurința. Pentru a exemplifica aceste concepte, vom folosi un atac relevant: atacul cu bomba
din Boston, USA, de pe data de 15 Aprilie 2013, la ora 14:59. Pe Twitter la ora 16:10 erau peste 300.000
de menționări a „Boston explosions” (explozii in Boston), iar la ora 16:30 erau peste 700.000 de
menționări a „Boston Marathon” (maratonul din Boston). Aceste Twitturi erau in mare parte însoțite de
#PrayForBoston. Pe lângă menționările in text a exploziei multe Twitturi au fost însoțite de imagini sau
de clipuri video de la fata locului. După cum se poate observa cu ușurința, aceasta platforma are
capacitatea de a genera atât meta date cat si imagini despre subiecte de interes.
[http://scitechconnect.elsevier.com/social-marathon/]
Următoarea rețelelor de socializare pe care ne vom focusa atenția este FaceBook. Aceasta are toate
caracteristicile prezente in Twitter, permițând folosirea hastagurilor si având conceptul de trendig. Pe
lângă aceste, FaceBook, permite postarea unui număr mare de poze si chiar a filmelor live. Pe parcursul
istoriei acestei platforme un număr mare de infractori au fost prinși după ce chiar aceștia au postat poze
compromițătoare cu ei. Dar acesta nu este cel mai atractiv aspect al rețelei de socializare, acest titlu
mergând capacitații acesteia de a transmite video in timp real. Un număr mare de oameni au fost salvați
din situații periculoase după ce au început sa transmită live situația in care se afla, permițând forțelor de
ordine sa vadă nu numai situația ci si sa primească informații despre unde se afla victima, in cazul in
care aceasta nu știe unde se afla. Un alt trend pe FaceBook este ca infractorii sa transmită live furturi
sau alte acte violente. Aceste transmisii au fost esențiale identificării si capturării acestora.
[http://www.oxygen.com/blogs/the-most-disturbing-facebook-live-videos-of-2017-so-far]
Ultimele doua rețele de socializare pe care le vom expune aici vor fi Reddit si 4Chan. Aceste doua rețele
sunt mai mult comunități online decât tradiționalele rețele sociale. Mare distincție intre acestea si
rețelele clasice de socializare este ca permit, si chiar încurajează, anonimitatea totala. O alta mare
diferența intre acestea si rețelele de socializare clasice este ca acestea nu sunt organizare după user, ci
după subiectul de discuție. Reddit este organizat in „SubReddits”, fiecare dintre acestea avand o tema
generala si permițând posturi de la utilizatori doar daca aceste postări respecta tema. Fiecare postare
poate primi voturi pozitive sau negative de la ceilalți utilizatori, acest lucru permițând ca un subiect de
interes sa ajungă dominant si foarte discutat in minute de la postarea initiala. Pentru acest proiect vom
aminti subrdituri de interes cu ar fi /r/Romania, /r/Bucuresti sau /r/Iasi. Aceste subredituri conțin in
general cele mai importante știri pe plan local in timp ce se întâmpla fiind o sursa importanta de
metadate. 4Chan are in aceeași structura ca Reddit însă aceasta comunitate este mult mai orientate pe
conținut media, in special pe imagini. Istoric, aceste 2 comunități au reușit sa identifice si sa duca la
capturarea unui număr semnificativ de infractori, folosindu-se de principiul „inteligentei maselor”.
Printre cele mai notabile realizări ale acestor doua comunități au fost, in cazul Reddit identificarea
unuia dintre atacatorii din Boston (/r/FindBostonBombers), iar in cazul 4Chan identificarea si predarea
către politie a unui număr semnificativ de pedofili. [https://www.villagevoice.com/2010/09/03/how-
did-4chan-and-gawker-get-chris-hansen-arrested-for-child-molestation/]
In cazul canalelor TV captarea automata a informațiilor video cat si a metadatelor este realizabila
deoarece majoritatea canalelor de știri urmează o formula standard de expunere a informațiilor. Partea
superioara a ecranului, minim 2/3 din acesta, este ocupata de feed-ul video transmis de televiziune. In
scopul acestui proiect pe aceasta regiune se poate focusa analiza automată a imaginilor. In partea
inferioara a ecranului, maxim 1/3, de obicei se regăsesc metadatele aferente imaginilor din partea
superioara a ecranului. Aceste informații pot fi extrase folosind recunoaștere automata de caractere.
Pe lângă canelele de știri TV, merita menționate si multitudinea de pagini online care se ocupa cu
preluarea, crearea si distribuirea de știri. Acestea sunt o sursa buna de metadate, nu numai din motivul
evident, oferind text care descrie evenimentele de interes, însă acestea site-uri conțin in codul lor un
câmp numit „metadata” care este folosi de către motoarele de căutare pentru a le găsi mai eficient.
Aceste metadate sunt compuse din cuvintele cheie ale subiectului discutat.
In concluzie, prin combinarea surselor media discutate anterior este posibila crearea unei descrieri
elocvente a oricărui scenariu de interes, folosind informație de încredere generata in timp real.
SCOUTER
Baza de date SCOUTER*** este compusa din 30 de fisiere video grupate in 3 seturi (3 seturi x 10 camere).
Inregistrarile sunt efectuate la trei dati diferite si perioade ale zilei (Figura 1). Persoanele de interes sunt
urmarite din mai multe unghiuri atat in interior cat si in exterior. Cele 10 camere din fiecare set
reprezinta locatii diferite si contin acitivitati diferite (persoane, autovehicule, vegetatie, etc.). Filmele
video sunt inregistrate la 6-10 de cadre pe secunda, o rezolutie de 704 x 576. Inregistrarile sunt realizate
in conditii variabile de lumina si prezinta diferite zgomote si perturbatii. In total, baza de date contine (3
zile) x (10 camere) x (aprox. 120 secunde per film) x (10 cadre pe secunda) = aprox. 36.000 de frame-uri
adnotate. Obiectele marcate (oamenii) variază de la 50 x 50 pixeli 250 x 350 pixeli. De asemenea,
obiectul de interes poate apărea cu bagaj. Imaginile video conțin condiții de iluminare variabile, precum
și diferite nivele de dificultate. De asemenea, aceasta baza de date ridica multe provocări in materie de
procesare si analiza, cum ar fi zgomotul (imaginile pot fi de calitate scăzută sau neclare).
***
http://uti.eu.com/pncd-scouter/rezultate.html
Fig.1 Exemple de imagini extrase din baza SCOUTER (a se obs. perspective si dimensiuni ale obiectelor diferite).
PEVID
Baza de date PEVID††† este formata din 21 de clipuri video (16 sec fiecare, rezolutie 1080p, 25 cadre pe
secunda) si fisierele continand adnotarile in format XML, reprezentand regiunile sensibile de
confidentialitate. Clipurile video contin persoane care efectuează diferite acțiuni in conditii de interior si
exterior, pe timp de zi si de noapte si care executa diferite actiuni (furt de portofel, conflict intre
persoane, plimbare, etc.). Persoanele sunt de diferite genuri si etnii. În cadrul acestei cercetări setul de
date PEVID a fost modificat (adnotat), pentru a reflecta numarul de obiecte/persoane in total, unic
identificate si care reapar in unele clipuri (un total de 14 de persoane distincte au fost identificate,
generand la 14 scenarii de cautare in functie de continut).
ILIDS
Baza de date ILIDS‡‡‡ este o inițiativă a guvernului britanic de a furniza un punct de referință, în scopul
de a facilita proiectarea și dezvoltarea sistemelor inteligente și automatizate de prelucrare video cu
cerințe specifice. ILIDS este creat de Home Office Scientific Development Branch (CAST) și constă din
inregistrari CCTV bazate de principiu pe cinci scenarii diferite, (1) detectare bagaj abandonat, (2)
detectare vehicul parcat ilegal, (3) monitorizare zona sterilă, (4) supraveghere in interior si (5)
identificare si cautare pe camere multiple. In cadrul acestei teze, se va folosi o parte din aceasta baza de
date pentru evaluarea algoritmilor propusi de detectie miscare.
KTH
KTH§§§ reprezinta o baza de date clasica (folosita in foarte multe activititati de cercetare/dezvoltare)
formata din 600 inregistrari video, impartita in 192 fisiere video pentru antrenare, 192 pentru validare si
216 pentru testare. Baza descrie persoane (in numar de 6) care efectueaza mai multe actiuni (merg pe
jos, boxeaza, dau din maini, etc).
†††
http://mmspg.epfl.ch/pevid-hd
‡‡‡
http://www.centrasecurity.co.uk/wp-content/uploads/sites/11/2013/02/ilids-user-guide.pdf
§§§
http://www.nada.kth.se/cvap/actions/
WEIZMANN
O alta baza de date video de referinta este WEIZMANN****. Aceata contine 10 persoane care efectuaza
mai multe actiuni precum: plimbare normal, alergare, saritura, indoirea mainilor, etc. WEIZMANN
contine 90 de fisiere video gandite pentru clasificarea actiunilor mai multor persoane. Scenele sunt de
exterior cat si de interior. De asemenea scenele prezinta obiecte cu interactiuni multiple (intersectii
obiecte, caini, bagaje, etc.).
Figură 2. Baza de date WEIZMANN reprezentand o persoana care realizeaza mai multe activitati (merge, plimba o
valiza).
UT-Interaction
Baza de date UT-Interaction†††† exte formata din 20 de inregistrari video la o rezoluti e de710 x 480
pixeli, reprezentand 6 persoane care efetueaza mai multe actiuni ca: strangerea mâinilor, îmbrățișarea,
lovirea, îndreptarea cu mana, lovitura cu pumnul, împingere (pentru rasturnarea adversarului).
Persoanele sunt suprinse in diferite complexitati ale scenei, atat de interior cat si de exterior.
Figură 3. Mostre din baza de date UT-Interaction (a ase observa multitudinea de persoane si actiuni)
BU-TIV ‡‡‡‡
Reprezinta o baza de date video in termal ce poate fi utilizata pentru evaluarea algoritmilor de
procesare video inteligenta. Setul de date cuprinde mai multe scenario ca:
****
http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html
††††
http://cvrc.ece.utexas.edu/SDHA2010/Human_Interaction.html
‡‡‡‡
http://csr.bu.edu/BU-TIV/BUTIV.html
OTCBVS§§§§
OTCBVS reprezinta o colectie de date video (vizibil si termal) ce surprinde diferite actiuni umane din
supravegherea video stradala, recunoastere facial, trasul cu arma de foc, etc., acestea fiind grupate pe
mai multe scenarii de interes precum:
§§§§
http://vcipl-okstate.org/pbvs/bench/
LTIR
Setul de date LTIR***** este un set de date in infraroșu pentru evaluarea urmăririi pe termen scurt a unui
singur obiect (STSO - Short-Term Single-Object STSO). Acesta este formata din din 20 de fisiere video,
fiecare avand in jur de 500 cadre pe secunda. Baza de date surprinde o diversitate mare a obiectelor
cautate, de la persoane pana la drone (Figura
Figură 4. Diferite obiecte din baza de date LTIR (persoane, drone, etc.)
Colectia ONR†††††
Bazele de date de supravehgere video de tip Gated (realizate cu tehnologia SWIR - shortwave infrared)
sunt destul de rare in mediul academic si industrial din cauza popularitatii reduse generate de costul
ridicat al echipamentelor necesare sa achizitioneze astfel de date. In urmatoarele ete prezentata o astfel
de baza de date de tip Gated.
ONR‡‡‡‡‡ eeprezinta o colectie de date multispectrala cuprinzand si seturi de date inregistrate in spectul
SWIR (shortwave infrared). Fetele persoanelor sunt achizitionate la diferite lungimi de unda, plecand de
la 900 nm pana la 1700 nm, folosind filtre cu lungimea de unda de 100nm si positionate la 960 nm,
1050nm ,…, pana la 1650 nm, rezultand astfel 810 imagini in total (27 mostre x 30 persoane).
*****
http://www.cvl.isy.liu.se/en/research/datasets/ltir/version1.0/
†††††
https://biic.wvu.edu/data-sets/multispectral-dataset
‡‡‡‡‡
https://www.nist.gov/sites/default/files/documents/forensics/Dawson-Presentation.pdf
O altă problemă cu camerele PTZ sunt claritatea culorii nu se aplica pentru termal sau gated) si a texturii
puțin discriminatorie. De obicei multe variabile pot aparea pe secvențele video de lungă durată. Soarele
variaza in timpul zilei in intensitate, pe timp de noapte scena se schimbă în lumina ambientala cat și de
la iluminatul artificial de la farurile de vehicule. Prin urmare, calitatea imaginilor de la fiecare cameră in
vizibil, termal si gated variază considerabil, iar acesta inconsecvență poate cauza dificultăți în găsirea
corespondenței în imagini (in incercarea de a clasifica), chiar pe aceeasi camera. Ploaie sau zapada pot
apărea ca zgomot și pot produce ocluzii în condiții extreme.
In urmatoarele sectiuni sunt identificate principalii producatori din industrie de solutii de stocare si
analiza video inteligenta si care pot oferi date pre-procesate sau complet procesare la diferite tipuri (le
vom spune mai departe meta-date). In acest context, metadatele pot fi transmise prin intermediul unui
protocol standard (spre exemplu ONVIF§§§§§) sau proprietar, in al doilea caz fiind necesare o integrare
intre sisteme.
In cele ce urmeaza sunt prezentate cateva companii importante care ofera solutii 3rd party de procesare
si analiza inteligenta (video analytics).
Bosch
Grupul Bosch****** reprezintă unul din liderii globali furnizori de tehnologie şi servicii. Grupul Bosch
cuprinde compania Robert Bosch GmbH şi aproximativ 350 de filiale şi companii regionale din peste 60
de ţări. Bosch investeşte mai mult de 3,8 miliarde € în fiecare an în cercetare şi dezvoltare, iar în ultimii
ani a înregistrat peste 4000 de patente în toată lumea. Integrând cele mai noi camere video şi servere IP
(cat si camere proprietare) cu recorderele video, platforma integrată de management video Bosch
dispune de algoritmi proprietary propria de procesare si analiza video. Platforma de tip video analytics
Bosch asigură detecţia automată a evenimentelor importante si de interes. Principalele componente ale
platformei de achiziţie, management date si procesare video video Bosch sunt:
Principalli algoritmi de analiza video inteligenta Bosch sunt: detectia perimetrala, traversare linie
pieton/vehicul, parcare auto interzisa, directie gresita auto de deplasare, numarare peroane. Bosch
poate oferi metadata unui sistem 3rd party prin intermediul API/SDK prin semnarea unui NDA cu
compania integratoare.
Pelco
Din 2007, Pelco†††††† a devenit parte a grupului Schneider Electric, specialist global în managementul
energiei şi securităţii, devenind în timp scurt cel mai căutat furnizor în industria de securitate video.
Astăzi, Pelco are aproximativ 2.200 de angajati în intreaga lume, cu distribuitori în 130 de
ţări.Principalele componente ale platformei de achiziţie, management date video si procesare video
inteligenta Pelco sunt:
§§§§§
https://www.onvif.org/
******
https://www.boschsecurity.com/corporate/homepage/index.html
††††††
https://www.pelco.com/
2 Video Recorders DX
Principalli algoritmi de analiza video inteligenta Pelco sunt: disparitie obiecte din cadru, aparitia de
obiecte in cadru, traversare linie pieton/vehicul, numarare peroane. Pelco poate oferi metadata unui
sistem 3rd party prin intermediul API/SDK prin semnarea unui NDA cu compania integratoare.
Axxon
Axxon‡‡‡‡‡‡ este un dezvoltator de software care combină managementul de securitate fizică cu cel de
supraveghere video inteligentă. Peste 250 de specialişti cu înaltă calificare lucrează la Axxon, iar
compania are peste 20 de birouri în toată lumea, cu mai mult de 2000 de proiecte de securitate şi de
supraveghere video în peste 65 de ţări. Platforma integrată de management video Axxon stabileşte un
nou standard de funcţionalitate pentru sistemele de dimensiuni medii. Axxon ofera o interfaţa de
utilizator inovatoare, de stat-of-the-art analiză video de eveniment, precum şi sprijin pentru o
multitudine de dispozitive integrate de IP de la diverşi producători. Principalele componente ale
platformei de achiziţie şi management date video Axxon sunt:
Principalli algoritmi de analiza video inteligenta Axxon sunt: numararea in multime, numararea
standard, traversare linie pieton/vehicul, parcare auto interzisa, directie gresita auto de deplasare.
Axxon poate oferi metadata unui sistem 3rd party prin intermediul API/SDK, accesul la acesta si librariile
de dezvoltare fiind premise dupa semnarea unui NDA cu compania integratoare.
Axis
Axis§§§§§§ este lider de piaţă în echipamente video de reţea (camere IP şi sisteme de achizitie) şi o forţă
mojoră de promovare şi trecere de la supravegherea bazată pe echipamente analogice la echipamente
‡‡‡‡‡‡
http://www.axxonsoft.com/
§§§§§§
https://www.axis.com/ro/en/
video digitale. Axis are mai mult de 1.000 de angajaţi în 40 de locaţii din întreaga lume şi colaborează cu
parteneri care acoperă 179 de ţări. Algoritmii de procesare video inteligenti sunt rulati de obicei direct
pe camera video IP. Principalele componente ale platformei de achiziţie şi management date video Axis
sunt:
Principalli algoritmi de analiza video inteligenta Axis sunt: traversare linie pieton/vehicul, detectie in
zona perimetrala, disparitia/aparitia de obiecte dintr-o zona aglomerata, numarare persoane/vehicule.
Axxon poate oferi metadata unui sistem 3rd party prin intermediul API/SDK, accesul la acesta si librariile
de dezvoltare fiind premise dupa semnarea unui NDA cu compania integratoare.
Milestone
Milestone a fost infiinţată în anul 1998 ca o companie de dezvoltare software cu scopul de oferi
platforme de dispecerizare video prin gestionarea şi distribuirea de date digitale video. Cu sediul central
în Danemarca, Milestone este printre liderii mondiali ce furnizează platforme software de management
video IP. Platforma de achizitie, management si procesare video inteligenta este uşor de folosit, fiabila,
cu mai mult de 10.000 de instalări în întreaga lume. Principalele componente ale platformei Milestone
sunt:
Principalli algoritmi de analiza video inteligenta Milestone sunt: traversare linie pieton/vehicul, accesul
intr-o zona intersiza, parcare auto interzisa, directie gresita auto de deplasare, numarare persoane.
Milestone poate oferi metadata unui sistem 3rd party prin intermediul API/SDK, accesul la acesta si
librariile de dezvoltare fiind premise dupa semnarea unui NDA cu compania integratoare.
HiKVision
Hikvision, Hangzhou Hikvision Digital Technology este o firmă din China înființată în 2001, producătoare
de diferite echipamente de supraveghere video și soluții software cum ar fi camere IP, camere
analogice, camere PTZ, camere termale, ecodere de rețea, sisteme DVR și NVR, soluții de monitorizare
complexe și de trafic.
3 HiKVision Client
Principalli algoritmi de analiza video inteligenta HiKvision sunt: disparitie obiecte din cadru, aparitia de
obiecte in cadru, traversare linie pieton/vehicul, numarare peroane.
Pentru dezvoltarea de algoritmi proprietare care pot rula direct pe camera IP, HikVision ofera Sistemul
HEOP (Hikvision Embedded Open Platform), acesta prin intermediul unui API permite dezvoltatorilor 3rd
party să integreze aplicații software în camere video IP Hikvision. HiKvision poate oferi metadata unui
sistem 3rd party prin intermediul API/SDK, accesul la acesta si librariile de dezvoltare fiind premise dupa
semnarea unui NDA cu compania integratoare.
iOmniscient
iOmniscient******* reprezinta o companie care a câștigat recunoașterea internațională in ultimii ani ca
dezvoltând algoritmi pentru cele mai mari companii producatoare de solutii de procesare si analiza
video (precum cei enumerate mai sus). Principalii algoritmi dezolvati de companie sunt indetificati in
urmatoarele:
*******
http://iomniscient.com/
Algoritmii se pot rula direct pe o platforma independenta (PC) prin instalarea unei aplicații software
dedicate. iOmniscient poate oferi metadate unui sistem 3rd party prin intermediul API/SDK, accesul la
acesta si librariile de dezvoltare fiind premise dupa semnarea unui NDA cu compania integratoare.
Agent VI
Agent Video Intelligence††††††† (Agent Vi) este unul dintre cei mai importanti furnizori la nivel global de
soluții de analiză video cu arhitectură deschisă. Agent Vi oferta solutii complexe de analiză video ce
includ produse software cu procesare locala, cat si SaaS bazate pe tehnologia cloud, cu capabilități
variind de la analiza video în timp real cat si procesare de tip off-line (cautare persoane in baza de date).
Soluțiile sunt integrate pe deplin cu o varietate insemnata de camera IP, encodere, sisteme de
management video și software de de tip VMS (video management software).
†††††††
https://www.agentvi.com/
Algoritmii se pot rula direct pe o platforma independenta (PC) prin instalarea unei aplicații software
dedicate. Agent Vi poate oferi metadate unui sistem 3rd party prin intermediul API/SDK, accesul la
acesta si librariile de dezvoltare fiind premise dupa semnarea unui NDA cu compania integratoare.
Audio Analytics
Audio Analytics‡‡‡‡‡‡‡ este of companie din Marea Britanie specializata pe procesarea inteligenta audio.
Acestia sunt printre pionierii unei noi discipline a inteligenței audio artificiale, dezvoltand algoritmi de
procesare si analiza audio, inregistrate sub forma a numeroase brevete. Principalii algoritmii de
procesare audio dezolvati de compania Audio Analytics sunt indetificati in urmatoarele:
‡‡‡‡‡‡‡
https://www.audioanalytic.com/software/
Dispozitivele de procesare Audio Analytics ruleaza pe echipamente dedicate care se pot interfata la
nivel software cu un sistem 3rd party pentru a transmite metadatele.
IntelliVision
IntelliVision§§§§§§§ reprezinta o companie de renume ce ofera solutii de inteligenta artificiala (AI) bazata
pe arhitecturi de tipul retelelor neuronale cu invatare adanca (DeepLearning), specializata pe procesare
video cat si audio. Principalii algoritmi de procesare inveligenta audio dezvoltati de IntelliVision sunt
urmatorii:
Dispozitivele de procesare IntelliVision ruleaza pe echipamente dedicate cat si PC-uri si se pot interfata
la nivel software cu un sistem 3rd party pentru a transmite metadatele.
§§§§§§§
https://www.intelli-vision.com/about-us/
Poza afectata de “zgomot alb” Zgomot de tip “sare si piper” Fara zgomot
Am prezentat succint aceste aspecte pentru a sublinia importanta si influenta pe care sursele de
date (existente) o au asupra performantelor sistemului SPIA de procesara automata. In sectiunea
urmatoare am identificat principalele tipuri de sisteme pe care beneficiarul intentioneaza sa le utilizeze
precum si sursele de interes pentru viitor, a.i. sa putem identifica potentialele limitari ale sistemului ce
parvin din aceste aspecte.
Utilizarea eficienta a volumelor tot mai mari de date video si conexe reprezinta una din
principalele probleme cu care se confrunta institutiile de securitate si ordine publica, dar chiar si
structurile de securitate ale operatorilor privati. Acest fapt deriva in primul rand din numarul tot mai
mare de surse video, volume tot mai mari ale bazelor de date precum si cresterea exploziva a retelelor
Social Media si a datelor ce pot fi furnizate/extrase din acestea. Nevoia de utilizare eficienta a acestor
informatii se simte cu atat mai mult in domeniul Securitatii Nationale, protectia infrastructurilor critice,
protectia cetatenilor si a persoanelor cu rang de conducere ce pot fi tinta unor atentate, unde viteza de
raspuns este esentiala. De asemenea, este foarte important ca in procesul de tratare a evenimentelor,
factorii cheie implicati in luarea deciziilor operationale sa aiba la dispozitie informatii corecte si in timp
real, cat mai detaliate, prezentate intr-un mod eficient si care sa poata fi folosit ca instrument de suport
decizional, precum și eventuale harti de risc baate pe date istorice, colectate si procesare anterior si
organizate intr-un mod inteligent. Consortiul SPIA isi propune sa dezvolte si sa valideze o solutie
inovatoare, bazata pe cele mai noi tehnologii si algoritmi state-of-the art, capabila sa ofere un
instrument util si prietenos de analiza a datelor si extragere a informatiilor de interes.
Solutia isi propune utilizarea surselor de informatii existente, pornind de le senzori (video,
audio, tehnologii de detectie, etc) si pana la baze de date, procesarea complexa a tuturor acestor date
pentru extragerea informatiilor de interes (aplicand anumite filtre si metode de analiza in concordanta
cu cerintele particulare ale scenariului de lucru/utilizare) si prezentarea rezultatelor finale utilizatorului,
intr-un mod facil si complet, astfel incat acesta sa poata lua rapid si corect decizii bazate pe informatii
corecte, care-i dau posibilitatea construirii unei imagini de ansamblu asupra situatiei supervizate.
Pentru utilizarea surselor existente de date (Audio, Video, mixte, Baze de Zate, etc.) este
necesara integrarea acestora in solutia SPIA. Solutia SPIA va include integrari de date si senzori ce
respecta anumite protocoale standard dar si integrari punctuale, acolo unde este necesar, al unor
sisteme de interes pentru beneficiari sau alti potentiali beneficiari. In aceasta sectiune ne-am propus
identificarea surselor existente si de interes pentru Beneficiar, in timp ce in sectiunea urmatoare ne-am
propus identificarea surselor de interes in viitor pentru Beneficiar (nu exista la acest moment in utilizare
la Beneficiar), pentru a putea extinde utilizarea solutiei SPIA odata cu extinderea infrastructurii sale de
senzori.
Inregistrator
DVR tbd
Conectivitate Prin intermediul SDK sau API, prin integrarea cu sistemele tip DVR
Surse Video IP
Camere video
interior Camere fixe sau tip Dome, de rezolutie Full HD
Camere video
exterior Camere PTZ, 720p sau Full HD
Inregistrator NVR
interpretarea vorbirii - tematica pentru care vom realiza un sistem inteligent de învățare
pe baza datelor multi-sursă ce permite citirea automată pe buze, transpunerea vocii în
text și identificarea unor cuvinte cheie, pentru limba română.
Una din principalele provocari legate de procesarea datelor video in vederea extragerii
informatiilor de interes, mai ales cand vorbim de “recunoastere”, este aceea legata de “calitatea
imaginilor ce trebuie analizate”. Atingerea performantelor corespunzatoare este direct conditionata de
corelarea cerintelor de procesare cu calitatea imaginilor sau, acolo unde posibil, de asigurarea
imaginilor la o calitate solicitata de algoritmii de procesare.
In general, pot fi atribuite 3 categorii sistemelor se supraveghere video: Observare, Analiza Post-
Eveniment si Recunoastere. Sistemele proiectate in scopul supravegherii de tip “observare” nu necesita
rezolutii foarte mari insa este nesara o rata mare de refresh (frame-rate). Sistemele al caror scop primar
este analiza post evenment a incidentelor trebuie sa asigure a buna acoperire si o rata de captura
suficianta pentru inregistrarea evenimentelor in totalitate, cu toate informatiile necesare. Solutiile a
caror scop primar este “recunoasterea” necesita, in toate cazurile – fie ca vorbim de Detectie si
recunoastere Automata a Numerelor de Inmatriculare sau recunoastere de Persoane – o rezolutie mare
a imaginii corelata cu o rezolutie suficienta pe zona de interes “ pixels on target”. ********
Image credit: Digital Video Quality Handbook
******** Digital Video Quality Handbook, Security Industry Association, Dec 2012
Am prezentat aceste aspecte succinte pentru a putea fi luate in considerare la elaborarea unor
scenarii realiste de testare si folosire cu succes a sistemului SPIA, folosnd sursele de date existente.
Scenariul 1
Titlu Scenariul 1: analiza comportament multimi
Obiective Grad de interes crescut:
- Detectia dinamicii multimii (ex. la un anumit moment de timp o anumita zona a
multimii devine agitata)
- Estimare densitate persoane / numar total persoane in zona de interes
Grad mediu de interes:
- Identificare comporatament si/sau actiuni atipice, diferite de media multimii (ex.
identificarea unei persoane care vrea sa ajunga in fata unei multimi relativ statice)
- Identificare obiecte de interes care apar in zona de interes
- Detectie schimbari in imaginea de ansamblu a multimii (ex.: la un anumit moment
de timp apare in cadru o crestere semnificativa a numarului de pancarde si se
schimba imaginea multimii)
- Detectie structura multime (ex. pe baza de varsta sau sex)
Aplicatii - Protectia multimilor
- Protectia persoanelor de interes la manifestatii de diverse tipuri
- Protectia obiectivelor de interes
Impact social \ Cresterea gradului de siguranta in societate si a gradului de protectie a obiectivelor de
economic \ stiintific interes
Date de intrare
Tipuri si surse de date Date Video:
- Camere video day-night fixe
- Camere video day-night PTZ
- Camere video day-night mobile (ex. drone, diverse surse in miscare)
- Camere termale
- Baze de date
Date Audio:
- Senzori zgomot ambiental
Metadate:
- Date furnizate de operator
- Senzori (ex. detectie semnal radio control drone, senzori CBRN)
- Senzori tip RADAR/LASER/LIDAR
- Intrari/iesiri alarma
Volum de date Estimare numar mediu canale video pentru un scenariu:
estimat pentru - Min 5 ÷ max 20
prelucrare in timp - Rezolutie medie: 720p in crestere spre Full HD
real - Uzual fps: 25
- Codare: H.264
Estimare numar mediu surse Audio pentru un scenariu:
- Min 5 ÷ max 20
- Codare AAC, AAC-LC
Inregistrare film eveniment: cu date pre si post eveniment
Volum de date Interval de timp: 30 min post
estimat pentru Volum estimat: 250 GB
prelucrare in regim
„near real-time”
Volum de date 4 TB per scenariu
estimat pentru
prelucrare in regim
post-eveniment
Prelucrarea datelor
Corelare/agregare - Afisare informatii pe o harta GIS
informatii - Diseminare date catre app 3rd party
Date de iesire / Rezultate estimate
Date de iesire si - Rata de alarme fals positiv: 30%
acuratete dorita - Rata de alarme fals negativ: 10%
Stocarea, Stocare: interval predefinit pre & post eveniment (ex. + 30 sec)
vizualizarea si Vizualizare: harta GIS
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport decizional
evenimentelor cu
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la - Suport decizional
misiuni
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru baze de date
cu persoane cu
potential grad de risk
pentru securitate
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru harti de risk
pentru securitate
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
post-eveniment
Prelucrarea datelor
Corelare/agregare - Afisare informatii pe o harta GIS
informatii - Diseminare date catre app 3rd party
Date de iesire / Rezultate estimate
Date de iesire si - Rata de alarme fals positiv: 30%
acuratete dorita - Rata de alarme fals negativ: 30%
Stocarea, Stocare: interval predefinit pre & post eveniment (ex. + 30 sec)
vizualizarea si Vizualizare: harta GIS
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport decizional
evenimentelor cu
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la - Suport decizional
misiuni
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru baze de date
cu persoane cu
potential grad de risk
pentru securitate
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru harti de risk
pentru securitate
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
Scenariul 3
Titlu Scenariul 3: tracking persoana pe mai multe surse video
Obiective Grad de interes crescut:
- Recunoastere persoana in diferite surse/fluxuri video
- Tracking persoana pe mai multe surse video sau tracking PTZ (ex. recunoastere
persoana pe fluxul de la o camera fixa si directionare camera PTZ spre persoana &
tracking PTZ)
Grad mediu de interes:
- Identificare traseu persoana in spatiu-timp pe baza diferitelor detectii/identificari
- Asociere persoana-obiect cu care a interactionat (ex. asociere persoana –
autovehicul/numar inmatriculare)
Aplicatii - Urmarire persoana de interes/suspecta
- Identificare dinamica persoana suspecta
- Protectia obiectivelor de interes
Impact social \ Cresterea gradului de siguranta in societate si a gradului de protectie a obiectivelor de
economic \ stiintific interes
Date de intrare
Tipuri si surse de date Date Video:
- Camere video day-night fixe
- Camere video day-night PTZ
- Camere video day-night mobile (ex. drone, diverse surse in miscare)
- Camere termale
- Baze de date
Metadate:
- Date furnizate de operator
- Senzori (ex. poarta detectoare de metale)
- Intrari/iesiri alarma
Stocarea, Stocare: interval predefinit pre & post eveniment (ex. + 30 sec)
vizualizarea si Vizualizare: harta GIS
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport decizional
evenimentelor cu
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la - Suport decizional
misiuni
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru baze de date
cu persoane cu
potential grad de risk
pentru securitate
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru harti de risk
pentru securitate
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
Scenariul 4
Titlu Scenariul 4: identificare comportament si actiuni persoane de interes
Obiective Grad de interes crescut:
- Identificare comportament violent
- Interactiune om-masina
- Interactiune om-obiect
Grad mediu de interes:
- Ascundere/abandonare/plasare obiect
- Schimb obiect sau masina intre 2 persoane
Aplicatii - Identificare actiuni persoana de interes
- Urmarire persoana de interes/suspecta
- Protectia obiectivelor de interes
Impact social \ Cresterea gradului de siguranta in societate si a gradului de protectie a obiectivelor de
economic \ stiintific interes
Date de intrare
Tipuri si surse de date Date Video:
- Camere video day-night fixe
- Camere video day-night PTZ
- Camere video day-night mobile (ex. drone, diverse surse in miscare)
- Camere termale
- Baze de date
Metadate:
- Date furnizate de operator
- Senzori (ex. poarta detectoare de metale)
- Intrari/iesiri alarma
Stocarea, Stocare: interval predefinit pre & post eveniment (ex. + 30 sec)
vizualizarea si Vizualizare: harta GIS
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport decizional
evenimentelor cu
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la - Suport decizional
misiuni
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru baze de date
cu persoane cu
potential grad de risk
pentru securitate
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru harti de risk
pentru securitate
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
Scenariul 5
Titlu Scenariul 5: gasire obiecte de interes si extragere caracteristici
Obiective Grad de interes crescut:
- Identificare obiect in diverse surse video
- Detectie obiect abandonat/plasat
- Interactie om-obiect-mediu ambiental
Grad mediu de interes:
- Identificare obiecte intr-o regiune selectata
- Cautare anumite tipuri de obiecte (dupa diferite caracteristici, de ex. culoare) intr-
o zona de interes
- Identificare interactiuni om-obiect de interes (ex. persona x a coborat din masina
avand culoarea....si numarul ....)
Aplicatii - Urmarire obiecte de interes in spatiu-timp
- Supraveghere/securizare zone de interes
- Detectie interactie obiecte de interes – persoane si/sau mediu ambiental
- Protectia obiectivelor de interes
Impact social \ Cresterea gradului de siguranta in societate si a gradului de protectie a obiectivelor de
economic \ stiintific interes
Date de intrare
Tipuri si surse de date Date Video:
- Camere video day-night fixe
- Camere video day-night PTZ
- Camere video day-night mobile (ex. drone, diverse surse in miscare)
- Camere termale
- Baze de date
Metadate:
- Date furnizate de operator
- Senzori (ex. poarta detectoare de metale)
- Intrari/iesiri alarma
Prelucrarea datelor
Corelare/agregare - Afisare informatii pe o harta GIS
informatii - Diseminare date catre app 3rd party
Date de iesire / Rezultate estimate
Date de iesire si - Rata de alarme fals positiv: 30%
acuratete dorita - Rata de alarme fals negativ: 10%
Stocarea, Stocare: interval predefinit pre & post eveniment (ex. + 30 sec)
vizualizarea si Vizualizare: harta GIS
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport decizional
evenimentelor cu
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la - Suport decizional
misiuni
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru baze de date
cu persoane cu
potential grad de risk
pentru securitate
Furnizare informatii - Furnizare (sursa) de date pentru solutii de colectare date si analiza de risk
pentru harti de risk
pentru securitate
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
Scenariul 6
Titlu Scenariul 6 detectie microgesturi persoane in zona de tip “sala de asteptare”
Obiective - Deteriminare microgesturi pentru persoane ce asteapta intr-o anumita zona, de
tip sala de asteptare
Stocarea, Datele vor fi afisate utilizatorului care va analiza si lua decizii pe baza experientei si
vizualizarea si corelarii cu alte informatii.
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport operational
Scenariul 7
Titlu Scenariul 7 determinare emotii persoane in zona de tip “sala de asteptare”
Obiective - Determinare emotii de baza pentru persoane (max 10) intr-o zona de tip „sala de
asteptare”
- Determinare action units pentru persoane (max 10) intr-o zona de tip „sala de
asteptare”
- Detectie lipsa emotii
- Detectie comportament simulat/disimulat
Aplicatii - Furnizare indicii beneficiarului pentru a verifica si confirma/infirma anumite
detectii
- Training personal – invatare personal sa recunoasca emotiile
- Construire resursa umana – Identificare personal cu abilitati crescute de
recunoastere emotii
Impact social \ Crestere grad de instruire personal specializat
economic \ stiintific
Cresterea gradului de acuitate la selectarea personalului si la verificari de persoane
Cresterea gradului de siguranta in societate
Date de intrare
Tipuri si surse de date Scenariul se aplica in principal surselor de tip „indoor”
Date Video:
- Camera video full HD, optional cu control PTZ
- Camera termala
- Platforma de tip Kinect
Date Audio:
- O sursa audio de interior
Metadate:
- Date furnizate de operator
- Intrari/iesiri alarma
Stocarea,
vizualizarea si
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport operational
evenimentelor cu - Suport decizional
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la -Suport operational
misiuni -Suport decizional
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
4.3.3 Scenariul 8 determinare emotii persoane si inflexiuni ale vorbirii (intensitate / variație / vibrație) in
zona de tip “sala de interviu”
Scenariul 8
Titlu Scenariul 8 determinare emotii persoane si inflexiuni ale vorbirii (intensitate / variație /
vibrație) in zona de tip “sala de interviu”
Obiective - Determinare emotii de baza pentru o persoana intr-o zona de tip „sala de interviu”
- Determinare action units pentru o persoana intr-o zona de tip „sala de interviu”
- Detectie lipsa emotii
- Detectie comportament simulat/disimulat
Aplicatii - Furnizare indicii beneficiarului pentru a verifica si confirma/infirma anumite
detectii
- Confirmare/infirmare afirmatii candidat
- Identificare neconcordante afirmatii-vs-atitudine/emotii
Impact social \ Crestere grad de instruire personal specializat
economic \ stiintific
Cresterea gradului de acuitate la selectarea personalului si la verificari de persoane
Cresterea gradului de siguranta in societate
Date de intrare
Tipuri si surse de date Scenariul se aplica in principal surselor de tip „indoor”
Date Video:
- Camera video full HD, optional cu control PTZ
- Camera termala
- Platforma de tip Kinect
Date Audio:
- O sursa audio de interior
Metadate:
- Date furnizate de operator
- Intrari/iesiri alarma
Stocarea, Se doreste ca sistemul sa fie sistem suport pentru decizia operatorului, el fiind element de
vizualizarea si generare evenimente ce vor fi confirmate/verificate de un operator avizat
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport operational
evenimentelor cu - Suport decizional
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la -Suport operational
misiuni -Suport decizional
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
4.3.4 Scenariul 9 determinare emotii persoane in zona de tip “punct de control acces”
Scenariul 9
Titlu Scenariul 9 determinare emotii persoane in zona de tip “punct de control acces”
Obiective - Determinare emotii de baza pentru o persoana intr-o zona de tip „punct de
control acces”
Aplicatii - Furnizare indicii beneficiarului pentru a verifica si confirma/infirma anumite
detectii
- Confirmare/infirmare afirmatii candidat/vizitator
Impact social \ Crestere grad de instruire personal specializat
economic \ stiintific
Cresterea gradului de acuitate la selectarea personalului si la verificari de persoane
Cresterea gradului de siguranta in societate si cresterea gradului de securitate pentru zone
cu regim special
Date de intrare
Tipuri si surse de date Scenariul se aplica in principal unui punct de tip control acces
Date Video:
- Camera video full HD
Date Audio:
- O sursa audio
Metadate:
- Date furnizate de operator
- Intrari/iesiri alarma
Scenariul 10
Titlu Scenariul 10: speech-to-text
Obiective Grad de interes crescut:
- Transcriere vorbire in text; vorbirea este continua, înregistrată în condiţii de linişte
(exemplu: încăpere de evaluare psihologică) cu un microfon plasat în apropierea
vorbitorului şi provine de la un singur vorbitor
- Transcriere vorbire in text cu marcarea vorbitorului şi formatarea textului în
vederea creşterii inteligibilităţii; condiţiile sunt aceleaşi de mai sus, cu diferenţa că
în înregistrare apar 2 vorbitori
Grad mediu de interes:
- Transcriere vorbire in text cu marcarea vorbitorului şi formatarea textului în
vederea creşterii inteligibilităţii; condiţiile sunt aceleaşi de mai sus, cu diferenţa că
în înregistrare apar cel puţin 3 vorbitori
Aplicatii - Transcriere vorbire in text si identificare cuvinte de interes
- Identificare cuvinte cheie in vorbire prin cautare in text transcris
Impact social \ Cresterea gradului de siguranta in societate si a gradului de protectie a obiectivelor de
economic \ stiintific interes
Date de intrare
Tipuri si surse de date Scenariul se aplica in principal surselor de tip „indoor”
Date Audio:
- Surse audio de interior
Metadate:
- Date furnizate de operator
- Intrari/iesiri alarma
vorbitorului, etc.
o Acurateţea se măsoară folosind eroarea de transcriere la nivel de cuvânt.
Se doreşte o eroare de transcriere de maxim 10%.
- Pentru identificarea de cuvinte cheie
o Datele de ieşire sunt liste de cuvinte cheie însoţite de ştampile de timp
o Acurateţea se măsoară folosind rata de fals negative şi rata de fals
pozitive. Se doreşte o rată de fals pozitive de maxim 30%, respectiv o rată
de fals pozitive de maxim 10%.
Scenariul 11
Titlu Scenariul 11: verificare vorbitor
Obiective Grad de interes crescut:
- Verificare vorbitor in conditii/scenarii de tip control access
- Verificare vorbitor la accesul in anumite zone sau la anumite informatii ( de ex.
access in zone restrictionate, access la date speciale, etc.)
Grad mediu de interes:
- Verificare vorbitor in set deschis
Aplicatii - Control access bazat pe multiple tehnologii – in regim de „si” sau „sau”
Impact social \ Cresterea gradului de de protectie a obiectivelor de interes si informatiilor
economic \ stiintific sensibile/speciale
Date de intrare
Tipuri si surse de date Scenariul se aplica in principal surselor de tip „indoor”
Date Audio:
- Surse audio de interior
Metadate:
- Date furnizate de operator
- Intrari/iesiri alarma
prezentarea
rezultatelor
Beneficii asteptate
Preventia - Suport operational
evenimentelor cu
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la - Suport operational
misiuni
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
Scenariul 12
Titlu Scenariul 12: identificare vorbitor
Obiective Grad de interes crescut:
- Identificare vorbitor in set inchis mic (maxim 20 vorbitori)
Grad mediu de interes:
- Identificare vorbitor in set deschis
Aplicatii - Control access bazat pe multiple tehnologii – in regim de „si” sau „sau”
Impact social \ Cresterea gradului de de protectie a obiectivelor de interes si informatiilor
economic \ stiintific sensibile/speciale
Cresterea gradului de siguranta in societate
Date de intrare
Tipuri si surse de date Scenariul se aplica in principal surselor de tip „indoor”
Date Audio:
- Surse audio de interior
Metadate:
- Date furnizate de operator
- Intrari/iesiri alarma
rezultatelor
Beneficii asteptate
Preventia - Suport operational
evenimentelor cu - Suport decizional
impact negativ major
asupra persoanelor
sau infrastructurii
Suport operational la -Suport operational
misiuni -Suport decizional
Fluxul de dezvoltare / procesare
Preventia evenimentelor cu impact negativ major asupra persoanelor sau infrastructurii
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Suport operational la misiuni
Pas 1 Realizarea unei baze de date multi-sursa pentru dezvoltarea si validarea in conditii de
laborator a algoritmilor de procesare
Pas 2 Dezvoltare algoritmi procesare date si agregarea informatiilor multi-sursa
Pas 3 Prezentare informatii si suport decisional pentru operator
Pas 4 Diseminare informatii catre aplicatii 3rd party
Furnizare informatii pentru baze de date cu persoane cu potential grad de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre baze de date 3rd party
Furnizare informatii pentru harti de risk pentru securitate
Pas 1 Extragere informatii si validare de catre operator
Pas 2 Diseminare informatii catre aplicatii dedicate
Scenariul 13
Titlu Scenariul 13: citire pe buze
Obiective Grad de interes crescut:
- Detectie cuvinte cheie prin citire pe buze pentru o persoana in multime
Grad mediu de interes:
- Extragere un numar crescut de cuvinte, mergand pana la intelegere context
discutie, prin citire pe buze, pentru o persoana in multime
- Agregare si Corelare cuvinte recunoscute prin citire pe buze si spech-to-text,
persoana in multime
Aplicatii - Protectia multimilor
- Protectia persoanelor de interes la manifestatii de diverse tipuri
- Protectia obiectivelor de interes
Impact social \ Cresterea gradului de de protectie a obiectivelor de interes si informatiilor
economic \ stiintific sensibile/speciale
Cresterea gradului de siguranta in societate si a gradului de protectie a obiectivelor de
interes
Date de intrare
Tipuri si surse de date Scenariul se aplica in principal surselor de tip „outdoor”
Date Video:
- Camera de exterior cu control PTZ, cu posibilitate de pozitionare si focus pe fata
persoanei de interes
- Camera de exterior de rezolutie foarte mare ce poate oferi o rezolutie la nivelul
fetei persoanei de interes suficienta pentru acest tip de procesari automate
Date Audio:
- Surse audio de exterior, directionale si cu posibilitate de focus la nivelul persoanei
de interes
Metadate:
- Date furnizate de operator
- Intrari/iesiri alarma